1day_1paper icon indicating copy to clipboard operation
1day_1paper copied to clipboard

[66] Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

Open dhkim0225 opened this issue 3 years ago • 0 comments

설날 연휴를 맞아, 밀렸던 논문읽기 ...!

paper

무지무지 신기한 paper. 학습을 오래 돌리면 결국 generalization 이 된다고 주장.

image

첫 번째 그림을 보면, 모델이 overfitting 된 걸 확인 할 수 있....다 싶었는데 엄청 학습시키니까 validation 이 오르네?? 그래프가 log scale 인 걸 감안하면 엄청 돌려야 오르는 거긴 하다.

두 번째 그림은, training data 가 적으면 적을 수록 validation 99% 를 찍는데 오래 걸린다는 사실을 보여준다. (fraction 마다 run 3번씩) 세 번째 그림은, 문제 정의를 보여준다. (당신은 문제를 풀 수 있는가?)

Method

모델은 transformer 2 layer, 128 width, 4 attention head, (400K params)

  • AdamW optimizer (beta1=0.9, beta2=0.98)
  • lr 1e-3
  • weight decay 1
  • warmup 10 step
  • bsz 512 or dataset size 의 절반

데이터는 아래 operation 들 중 하나를 랜덤하게 뽑아내서 초반에 보여줬던 그림처럼, 구멍 숭숭 뚫는 형태. image

Experiment

image weight decay가 좀 효과적이였음

뽑힌 task 별로 어떻게 되는 지도 살펴봤는데, 확실히 단순한 operation 일 수록 잘 수렴하는 듯. image

몇몇 operation 들에서는 아예 수렴이 안 되었다고 한다. (x^3 + xy^2 + y (mod 97)) 그런 모델들은 무시하고, 다시 operation을 뽑아줬다고 한다.

필자 의견

특정 데이터 셋에서의 실험이기 때문에, grokking 현상이 항상 일어나는 건 아닐 지 모른다. 하지만, 이런 현상을 발견한 것 자체가 굉장히 흥미롭다. 어쩌면 우리는 generalize 되어지고 있는 모델들을 early-stop 해온 것은 아닐까. 다른 task 들에 대해서도 이런 실험이 있다면 더욱 흥미로울 듯 싶다.

dhkim0225 avatar Jan 30 '22 03:01 dhkim0225