WeeklyArxivTalk icon indicating copy to clipboard operation
WeeklyArxivTalk copied to clipboard

[20230917] Weekly AI ArXiv 만담 시즌2 - 26회차

Open jungwoo-ha opened this issue 1 year ago • 2 comments

Zoom: https://navercorp.zoom.us/j/92208940283

페이스북: https://www.facebook.com/weeklyaiarxivpage

News

ArXiv

  • In the long (context) run

    • Long context LLM 에 대해 잘 정리한 블로그
    • FlahAttention 나오면서 GPU 메모리와 연산 최적화로 long context 부담이 많이 줄어듬
    • 최근의 Long context 는 주로 fine-tuning 기반이다.
    • 그럼 왜 pretraining 시에 long context 를 직접 고려해서 하지 않나?
      • pretraining 의 추가 attention overhead 때문? (이건 모델이 커지면 크게 부담스럽지 않음)
      • Pretraining 할 때 써먹을 long context 데이터 자체가 많이 없어서 (이게 중요한 문제)
    • Common crawl 중에선 C4보단 refineWeb이 좀더 낫고 코드는 확실히 좀더 상황이 좋음
    • 그럼 어떻게?
      • pretraining단에서 long-context 학습 녹록하지 않음. 배치 학습 효율위해 최대 길이 끼워맞춰 넣기 때문에 별로 효과없을 가능성
      • 결국 long-context 성향을 갖도록 웹페이지의 링크를 이용한 이어붙이기 같은 걸 해야
      • 양질의 문서데이터를 더 확보하고 데이터 가공작업에 공을 더 들이는 것도 방법 (비용의 문제)
      • 그런데 long context pretraining vs long context FT 를 비교할려고 보니 애당초 성능 평가 프로토콜이 부족해서 효과 검증이 어려움 image image image image
  • DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning

    • Parameter efficient tranfer learning 과 prefix-tuning (p-tuning v2) + LoRA의 합작품 같은? (from UCL)
    • p-tuning v2의 학습가능한 soft prompt 의 일부 파라미터를 low rank로 분할해서 embedding 계산 때 적용
    • 뭔가 그럴듯 하긴 한데.. 얼마만큼 LLM 전체에 영향을 줄지... 큰 모델에서 얼마만큼 효과가 있을 지..
    • 실험은 주로 작은 모델에서 NLU task위주로 수행. LLaMA 시리즈 실험이 없어서 아쉽 image image image

jungwoo-ha avatar Sep 16 '23 12:09 jungwoo-ha

News

Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality

Paper: https://www.hbs.edu/faculty/Pages/item.aspx?num=64700 Blog: https://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jagged

여러 비즈니스 스쿨 및 BCG 컨설팅 그룹에서 참여한 인공지능의 생산성 향상 연구가 공개되었습니다. BCG 컨설팅 그룹의 컨설턴트 753명에게 인공지능 없이 업무 진행, 단순히 GPT4만 제공, GPT4 제공 및 prompting 관련 교육 진행 세 그룹으로 나누었을 때 생산성이 약 25% 향상되고 업무의 퀄리티도 증가했음을 발견했습니다. 특히 경험이 부족한 컨설턴트의 업무 능률 향상이 가장 큰 것을 확인했습니다. 다만, 유사한 난이도로 보이는 과제 중 오히려 인공지능을 적용하는 것이 부정적인 영향을 미치는 경우도 있었으며 사람마다 가장 효율적으로 AI를 적용하는 방법이 다르다는 것도 보였습니다. 인공지능이 업무를 바꾸는데 어떤 영향을 미칠지에 대해 논쟁이 활발해진 가운데 많은 도움이 될 것 같습니다.

image image image

Large Language Models for Compiler Optimization

ArXiv: https://arxiv.org/abs/2309.07062 image

Meta에서 LLM을 통한 Code optimization에 대한 연구를 공개했습니다. Introduction을 읽어보면 결과가 너무 잘 나와 저자들도 깜짝 놀랐다고 기재했는데 Llama 2 7B 모델을 scratch training함으로써 LLVM IR을 제공했을 때 최적화 경로를 언어모델이 정학게끔 함으로써 현재 컴파일러보다 약 3% 더 최적화된 코드를 얻을 수 있었고 약 70%의 경우 가장 최적화된 컴파일러 옵션과 동일한 결과를 얻었습니다.

컴파일러 코드 특성상 양질의 데이터 생성 및 검증이 쉬운 편인데 (요즘 기준으로는) 비교적 작은 모델인 7B LLama2를 scratch training함으로써 현재 rule based model보다 더 우수한 성능을 획득한 것을 보아 유망한 연구주제로 생각됩니다. 또한, 물론 Phi 1.5는 현재 논란이 많지만 자연어를 제외한 프로그래밍 언어에서 언어모델이 더 적은 데이터로도 우수한 학습 능력을 보일 수 있다는 근거로 생각됩니다 (결국 정답은 데이터?...).

image

veritas9872 avatar Sep 17 '23 01:09 veritas9872

Large Language Model for Science: A Study on P vs. NP

  • TL;DR. socratic reasoning
  • https://x.com/_akhaliq/status/1701763296460697805?s=20 Screenshot 2023-09-17 at 9 29 35 PM Screenshot 2023-09-17 at 9 30 08 PM

물론, "증명"은 틀린거 같습니다: https://x.com/thegautamkamath/status/1703070665891315957?s=20

Bayesian Flow Network

~~정정정말 어렵네요~~ ~~어지러운 논문이지만, 뭔가 뭔가 잘만 이해하면 되게 괜찮은 논문인거 같은 느낌적인 느낌...~~

  • 지금까지의 generative modeling의 파워는 joint distribution encoding을 쉬운 여러 step으로 쪼개는거에 있다
    • autoregressive, flow-based, VAE, diffusion...etc
  • 그런데,
    • autoregressive: only successful in text domain (discrete ordered data)
    • diffusion: only successful in image domain (continuous), but not for text...
  • "A key motivation for this paper was our belief that a fully continuous transmission process — where Alice’s messages smoothly alter Bob’s beliefs — would be more effective for discrete data."
    • 이게 되면 continuous diffusion에서 쓰이던걸 가져올 수 있다!

TL;DR. Diffusion on parameters of data distributions*!!

Some possible 장점들?:

  • No need for inversion
  • BFN starts from parameter of some prior, while diffusion starts from pure noise?
  • 등등?

Technical detail

  • (정보이론에서 많이 이용되는 방식인거 같은데) Alice - sender과 Bob - receiver가 있다고 하죠
    • Alice는 data가 있고, Bob는 최소한의 bit를 통해 data를 유추하고 싶음
    • Bob가 똑똑할수록 less bit로도 full msg를 유추를 할 수 있겠죠
    • bit 개수 ~ loss function (e.g., entropy, KL divergence...etc)
  • Bob: param of input distr -> [neural network] -> param of output distr -> [convolve with same noise distr] -> receiver distribution
    • input distr: 초반엔 uniformative prior, 그리고 Alice한테 받은 sample들을 기반으로 Bayesian update (- fixed)
    • input distr과 다르게, output distr은 context information (e.g., surrounding pixels, related words)를 exploit할 수 있다!
      • neural network에 관련 정보가 encoding이 되어있기 때문!
  • Alice: Data + pre-defined scheduled noise -> sender distribution
  • cost ~ KL (sender || receiver)
Screenshot 2023-09-17 at 8 45 56 PM

cf. https://twitter.com/SchmidhuberAI/status/1694016724880761188

nick-jhlee avatar Sep 17 '23 11:09 nick-jhlee