WeeklyArxivTalk [20230611] Weekly AI ArXiv 만담 시즌2

News

ArXiv

Simple and Controllable Music Generation
- Meta 에서 나온 음악생성 모델
- EnCodec 써서 코드북 token 생성, Codebook projection + positional encoding (sin), Decoder only LM, codebook logit prediction
- Codebook interleaving pattern은 flattening 위주
- 텍스트와 reference melody 샘플 입력하면 생성해 줌.
- code: https://github.com/facebookresearch/audiocraft
- 데모: https://huggingface.co/spaces/facebook/MusicGen
- 음악: https://github.com/jungwoo-ha/WeeklyArxivTalk/assets/11782739/8ad02005-2436-4aca-8912-b89f8ce3bede

Jun 10 '23 01:06 jungwoo-ha

News

OpenAI CEO calls for global cooperation to regulate AI
- Fireside Chat with OpenAI (https://www.youtube.com/watch?v=MyTYAz82-V4)
- 일자리 대체에 대해, 노동시장은 2세대 정도에 걸쳐서 변화하였지만 10년안에 일어날 수 있음, 무서운 곳은 속도임, 기본소득의 역할
- OpenAI는 AGI를 만드는 것이 목표임, 다른 startup들과는 협력적인 관계 기대, platform과 killer-app의 관계(?)
- Mobile이라는 단어가 당연해졌듯이 AI도 그렇게 될 것임, 사람들이 사랑하는 것을 만들어라
- open-source와도 상호보완적
- Contents creator 저작권 문제 -> creator들이 더 많은 혜택을 받을 것
Adobe Express Gets Generative AI for Flashy Fliers, Social Videos
- https://youtu.be/h7WAmv_VqIw

Jun 10 '23 14:06 jwlee-neubla

News & Datasets

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

ArXiv: https://arxiv.org/abs/2306.01116 HuggingFace: https://huggingface.co/datasets/tiiuae/falcon-refinedweb Website: https://falconllm.tii.ae/

UAE의 TII에서 개발한 Falcon 모델이 최근 LLM 리더보드를 휩쓸면서 이목을 끌었는데 데이터 정제 과정에 대한 논문을 공개했습니다. 가장 중요한 내용은 웹 데이터만을 사용하고 curated data 없이도 양질의 데이터를 추출할 수 있으며 데이터의 양이 12% 이하로 줄어들어도 SOTA 모델을 만들 수 있다는 점입니다.

SlimPajama: A 627B token cleaned and deduplicated version of RedPajama

Blog: https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama HuggingFace: https://huggingface.co/datasets/cerebras/SlimPajama-627B GitHub: https://github.com/Cerebras/modelzoo/tree/main/modelzoo/transformers/data_processing/slimpajama

SRAM으로만 구성된 거대한 칩을 만든 것으로 유명한 Cerebras에서 SlimPajama 데이터셋을 공개했습니다. 몇 달 전 오픈소스로 LLaMa와 동일한 방법론을 적용하되 법적 문제가 없도록 구성한 데이터를 또다시 cleansing하여 약 절반 가량으로 줄였습니다.

지금까지의 LLaMa 등 데이터 중복 제거 방법론을 확인했을 때 미비한 점이 많아 불필요한 metadata 제거 및 코드 중복 제거 시 데이터가 절반으로 줄었음에도 유사한 성능을 확인할 수 있었습니다.

PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge

ArXiv: https://arxiv.org/abs/2306.03024

LLM의 Hallucination을 검증하기 위한 매우 흥미로운 방법이 소개되었습니다. 포켓몬 세계관에 대해 ChatGPT에 대해 질문을 하고 답변 검증 및 adversarial attack에 대한 취약성을 확인할 수 있었습니다.

내용적으로는 이미 모든 정보가 알려진 닫힌 세계에 대한 질의응답을 하게 함으로써 검증을 쉽게 할 수 있다는 점이고 실용적인 관점에서 유저들에게 LLM의 검증을 ~무료로~ crowdsourcing 할 수 있는 아이디어를 제시함과 동시에 LLM을 활용할 방안을 찾는데 도움이 된다고 생각됩니다.