1day_1paper
1day_1paper copied to clipboard
[66] Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
설날 연휴를 맞아, 밀렸던 논문읽기 ...!
무지무지 신기한 paper. 학습을 오래 돌리면 결국 generalization 이 된다고 주장.
첫 번째 그림을 보면, 모델이 overfitting 된 걸 확인 할 수 있....다 싶었는데 엄청 학습시키니까 validation 이 오르네??
그래프가 log scale 인 걸 감안하면 엄청 돌려야 오르는 거긴 하다.
두 번째 그림은, training data 가 적으면 적을 수록 validation 99% 를 찍는데 오래 걸린다는 사실을 보여준다. (fraction 마다 run 3번씩) 세 번째 그림은, 문제 정의를 보여준다. (당신은 문제를 풀 수 있는가?)
Method
모델은 transformer 2 layer, 128 width, 4 attention head, (400K params)
-
AdamW
optimizer (beta1=0.9, beta2=0.98
) - lr
1e-3
- weight decay
1
- warmup
10 step
- bsz
512
ordataset size 의 절반
데이터는 아래 operation 들 중 하나를 랜덤하게 뽑아내서 초반에 보여줬던 그림처럼, 구멍 숭숭 뚫는 형태.
Experiment
weight decay가 좀 효과적이였음
뽑힌 task 별로 어떻게 되는 지도 살펴봤는데, 확실히 단순한 operation 일 수록 잘 수렴하는 듯.
몇몇 operation 들에서는 아예 수렴이 안 되었다고 한다. (x^3 + xy^2 + y (mod 97)) 그런 모델들은 무시하고, 다시 operation을 뽑아줬다고 한다.
필자 의견
특정 데이터 셋에서의 실험이기 때문에, grokking 현상이 항상 일어나는 건 아닐 지 모른다. 하지만, 이런 현상을 발견한 것 자체가 굉장히 흥미롭다. 어쩌면 우리는 generalize 되어지고 있는 모델들을 early-stop 해온 것은 아닐까. 다른 task 들에 대해서도 이런 실험이 있다면 더욱 흥미로울 듯 싶다.