WeeklyArxivTalk icon indicating copy to clipboard operation
WeeklyArxivTalk copied to clipboard

[20230903] Weekly AI ArXiv 만담 시즌2 - 24회차

Open jungwoo-ha opened this issue 1 year ago • 4 comments

News

ArXiv

  • DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

    • 구글에서 나온 Pretraining 시 corpus 도메인 최적화 하는 방법 연구 (평가가 아주 좋음)
    • Small referece model 로 small proxy model 만들고 domain weight 최적화 해서 pretrainin corpus 구성
    • 주로 280M을 레퍼런스 모델로 해서 8B에 올려봤는데 FT에서 효과가 아주 좋음
    • GLaM, Pile 데이터셋을 통해 성능평가. 레퍼런스 모델크기에 대한 다양한 ablation
    • Pretraining 을 수행하고자 하는 연구그룹에서는 꼭 참조해 보면 좋을 연구 image image image image
  • The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

    • Meta에서 만든 122개 언어를 커버하는 Multi-choice MRC 데이터셋
    • 기반은 다국어 번역 벤치마크인 FLORES-200의 passage들을 기반으로 함
    • 이를 Human - AI collaboration 을 통해 MRC 셋으로 만들어 공개
    • 언어종류도 High, mid, low resource 즉 주류 중간 비주류 언어 모두를 커버하도록
    • 평가는 MLM 모델 (InfoXLM, XLM-V, 번역후 학습), LLM (GPT-3.5-Turbo, LLaMA1,2, Falcon-40B, Zero-shot)
    • Low resource 언어는 모델 커져도 별로 재미를 못보는 듯.. image image image image

jungwoo-ha avatar Sep 03 '23 00:09 jungwoo-ha

Technical News

Candle: A Minimalist ML framework for Rust

GitHub: https://github.com/huggingface/candle

HuggingFace에서 Rust 언어 기반의 Candle 딥러닝 프레임워크를 출시했습니다. Torch와 유사하지만 상대적으로 기능이 적은 것으로 보이는데 Python을 사용할 수 없는 embedded 또는 millisecond-level latency가 요구되는 환경에서 모델 추론을 하는데 많은 도움이 될 것 같습니다.

내부를 들여봤을 때 Rust와 CUDA 사이에 불안정한 wrapper API에 의존하고 있어 production에 사용하기에는 문제가 있을 것으로 생각되지만 robotics 등 Python으로 인한 memory 및 latency overhead가 부담스러운 환경에서 사용해볼 수 있을 것 같습니다.

Rust는 WASM과 호환성이 매우 좋아 웹브라우저에서의 실행에도 많은 도움이 될 것 같습니다.

image

Matrix Multiplication in Candle:

use candle_core::{Device, Tensor};

fn main() -> Result<(), Box<dyn std::error::Error>> {
    let device = Device::new_cuda(0)?;

    let a = Tensor::randn(0f32, 1., (2, 3), &device)?;
    let b = Tensor::randn(0f32, 1., (3, 4), &device)?;

    let c = a.matmul(&b)?;
    println!("{c}");
    Ok(())
}

Open challenges in LLM research

Blog: https://huyenchip.com/2023/08/16/llm-research-open-challenges.html

image

MLOps 업계에서 유명하신 Chip Huyen님께서 현재 언어 모델에서 문제점 및 연구 진행 방향에 대해 블로그를 공유했습니다. 최근 거대 언어 모델의 중요성이 부각되면서 입문자에게 도움이 될 것 같습니다.

Research

Nougat: Neural Optical Understanding for Academic Documents

Website: https://facebookresearch.github.io/nougat/ ArXiv: https://arxiv.org/abs//2308.13418 GitHub: https://github.com/facebookresearch/nougat HuggingFace Demo: https://huggingface.co/spaces/ysharma/nougat

image image

Meta에서 연구원에게 꼭 필요한 과학 논문 분석 OCR 논문을 공개했습니다 (저는 직접 설치해서라도 사용할 것 같습니다 ㅋㅋㅋ).

과학 기술 연구의 대부분은 ArXiv 등에서 PDF 형태로 공유되는데 일반적인 OCR은 수식 및 테이블을 잘 추출하지 못하는 문제점이 있는데 해당 연구에서는 비교적 단순한 Encoder-Decoder 모델을 활용해서 논문 스캔을 입력으로 받았을 때 Markdown 형식으로 출력할 수 있는 모델을 만들었습니다.

데이터는 ArXiv 논문을 주로 사용했으며 아직까지 그림을 다루지 못한다는 단점이 있지만 PDF를 보고 LaTeX을 작성해야 하는 많은 연구원들에게 도움이 될 것이라고 믿습니다.

종이 및 조명의 왜곡이 심함에도 정확하게 LaTeX을 출력한 success case입니다. image

Figure 5의 그림은 생성할 수 없는 failure case입니다. image

Bayesian Flow Networks

ArXiv: https://arxiv.org/abs/2308.07037

(Unofficial) GitHub: https://github.com/Algomancer/Bayesian-Flow-Networks

image

veritas9872 avatar Sep 03 '23 04:09 veritas9872

Upcoming/Finished deadlines

AAAI 2024: submission 다들 수고하셨습니다! (현재 phase 1 reviewing 진행중) ICLR 2024: abstract due 09/22 9PM (KST) ~~추석은 저기 어딘가로,,~~ AISTATS 2024: abstract due 10/07 9PM (KST) (left out srry: CHI 2024, AAMAS 2024, ALT 2024, EACL 2024)

Misc. OPODIS 2023: 09/08 (AoE)

NeurIPS 2023 Author Notification: ~ 09/22 언저리..? (다들 잘되길 기원드릴게요 ㅠㅠ)

News

  • IJCAI 2024 to be held at Jeju (not Shanghai as planned)
    • https://twitter.com/IJCAIconf/status/1694990362954375336?s=20
  • Yet Another ICML Award Fiasco (by Prof. Francesco Orabona of KAUST)
    • https://twitter.com/bremen79/status/1696868943426986168?s=46&t=llKohaNYR1IR_yaWlq40TA
    • 이번에 ICML 2023에서 outstanding award를 D-Adaptation가 받았는...데....
    • 알고보니 9년전에 있던 result보다 worse한 result를 포장을 잘 한걸로 보인다...?
    • raises several ques:
      • 이렇게 mistake가 있으면 어떻게 해야할까요 (in CS conf)?
      • award를 주는건 test-of-the-time처럼 시간을 두고 줘야하지 않을까요? (even get rid of paper award?)
      • ...etc

Papers

Transformers as Support Vector Machines

  • Tarzanagh, Li, Thrampoulidis, and Oymak
  • TL;DR: formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem
    • optimal input token과 non-optimal token을 separation!
  • Implicit bias! (classifying and minimizing norm of $W = KQ^T$), for both linear and nonlinear head/MLPs.
  • Many many exciting future directions!
    • extension to realistic architectures, generalization analyses...etc

LLM Theory에 다들 관심을 주시면.. ㅎㅅㅎ

  • Language modeling 자체에 대한 연구 (~ statistical learning theory)
  • New optimizer for LLM
  • Optimization landscape of LLM
  • Inner mechanism of attention
  • ...etc (let me know if you are interested in a list of recent preprints ~~that I have not read fully~~)

지금 매우매우 핫하면서 (at least in theory community), 개인적으로 이제는 LLM theoretical foundation이 나올 때가 되었다고 생각이 듭니다. 이게 좀 더 major한 NLP community와 같이 소통하면서 연구를 하면 매우 meaningful한 결과들이 많이 나올것 같습니당

nick-jhlee avatar Sep 03 '23 05:09 nick-jhlee

Cloud TPU v5e for large-scale AI inference

Next 2023에서 TPU v5e를 공개했습니다. TPUv5의 lite version이고, TPUv4i의 후속작입니다. Tensor Core 1개 - 197TFLOPS, HBM2 1개 - 16GB, 819GBps, no twisted torus, no OCS Single chip으로 13B 모델까지 돌릴 수 있고, 256개로(1 Pod) 2T 까지 돌릴 수 있다고 주장 Google이 서비스로 이용할 sLLM이 주요 타겟이 아닐까 예상해봅니다.

https://cloud.google.com/blog/products/compute/how-cloud-tpu-v5e-accelerates-large-scale-ai-inference?hl=en

image image image image

jwlee-neubla avatar Sep 03 '23 12:09 jwlee-neubla

Technical notes on "Bayesian Flow Networks" by Dr. Sam Power (Univ of Bristol)

https://twitter.com/sp_monte_carlo/status/1694704443814457536?s=20

nick-jhlee avatar Sep 03 '23 12:09 nick-jhlee