반응형

Elastic Weight Consolidation(EWC)은 새 과제를 학습하면서 이전 과제에 중요했던 파라미터가 크게 변하지 않도록 제약을 거는 방법이다.

구현 단계

  • 이전 과제를 학습한 뒤 각 파라미터의 중요도를 Fisher information으로 근사한다.
  • 새 과제 학습 시 기존 파라미터 값에서 멀어질수록 벌점을 주는 항을 손실에 더한다.
  • 일반적인 task loss와 EWC penalty의 가중치를 조정해 균형을 맞춘다.

핵심 수식의 의미

  • 중요도가 큰 파라미터는 이전 과제 성능에 많이 기여했으므로 덜 움직이게 한다.
  • 중요도가 작은 파라미터는 새 과제에 맞춰 더 자유롭게 바뀔 수 있다.
  • 결국 모든 가중치를 고정하는 것이 아니라 중요한 부분만 탄력적으로 보호하는 방식이다.

실험 체크리스트

  • EWC를 쓰지 않은 fine-tuning baseline과 비교한다.
  • 이전 과제 성능 유지와 새 과제 성능 향상을 함께 기록한다.
  • penalty 가중치가 너무 크면 새 과제를 못 배우고, 너무 작으면 forgetting을 막기 어렵다.

읽을 때 확인할 점

Elastic Weight Consolidation 구현 흐름: continual learning 손실 설계를 볼 때는 먼저 용어의 정의와 적용 조건을 분리해서 보는 것이 좋다. 같은 표현이라도 개발 환경, 데이터 형태, 사용 목적에 따라 실제 의미가 달라질 수 있기 때문이다.

  • 지금 해결하려는 문제가 개념 이해인지, 구현 적용인지, 결과 해석인지 먼저 나눈다.
  • 예제의 전제 조건이 내 상황과 같은지 확인한 뒤 필요한 부분만 가져온다.
  • 결과가 기대와 다르면 입력, 설정, 경계 조건을 순서대로 좁혀서 확인한다.

적용 체크리스트

  • 핵심 용어를 한 문장으로 설명할 수 있는지 확인한다.
  • 작은 예제나 샘플 데이터로 동작을 먼저 검증한다.
  • 실제 적용 전에는 입력 조건, 예외 케이스, 결과 해석 기준을 따로 적어 둔다.

함께 보면 좋은 글

마무리

Elastic Weight Consolidation 구현 흐름: continual learning 손실 설계는 개념 자체보다 적용 상황과 한계를 함께 보는 것이 중요하다. 작은 예제로 동작을 확인하고, 실제 환경에서는 입력 조건과 예외 케이스를 따로 점검하는 습관을 두면 시행착오를 줄일 수 있다.

반응형

+ Recent posts