Donghyun Kim
Donghyun Kim
저자 직강 2 1. augmentation 을 세게 주면 saddle point 가 많이 생긴다. (hessian negative 가 많이 생긴다.) 2. inductive-bias 와 augmentation 은 역할이 다르다. aug 하면 loss landscape 의...
PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture ELSA: Enhanced Local Self-Attention for Vision Transformer unicorn (Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling) deepspeed-moe...
@priancho 안그래도 디테일이 없어서 그런갑다.. 하고 있었는데 ㅎㅎ 감사합니다
@wengdunfang Not Yet.
천상혁님과 관련해서 이것저것 이야기를 해 보았음. 모델 퍼포먼스를 최대한 끌어낼 수 있게 parameter 를 tuning 해보자는 사람들이 조금씩 생겨나고 있는 듯 함. 이전 모델들은 이전 모델들이 충분히 학습한 것이라고 가정....