WeeklyArxivTalk [20230115] Weekly AI ArXiv 만담 시즌2

News

Conferences
- ACL 2023: Full paper deadline: 1.21 밤 9시 (Abs 제출 수고하셨습니다)
- ICML 2023: Full paper deadline: 1.28 새벽 5시 (별도 abs 데드라인 없어요)
- ICLR 2023 Notification: 1.21 오전 11시
NeurIPS 2022 의 온라인 프로그램이 이제 등록하지 않아도 시청할 수 있습니다.

ArXiv

GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities
- Bar Exam (변호사시험)을 넘어 이젠 CPA도??
- text-davinci-003 의 Zero-shot 테스트
- AICPA의 Assessment 1은 정량 수리적인 것들이 많아 Zeroshot 성능이 별로 (14.4% 정확도)
- Assessment 2는 좀더 지식과 기술에 관련된 것들이라 Zeroshot으로 Top-1 57% 정도 Top-2면 80%대 중반까지
- 소스코드: https://github.com/mjbommar/gpt-as-knowledge-worker

Jan 15 '23 00:01 jungwoo-ha

Arxiv

Singing voice synthesis based on frame-level sequence-to-sequence models considering vocal timing deviation
- Keyword : singing voice synthesis, frame-level sequence-to-sequence models, attention mechanism
- Sample URL : https://www.sp.nitech.ac.jp/~mkring/demo/ICASSP2023/
- Motivation / Goal / Contribution
  - Motivation : 기존 가창 음성 합성 시스템에서는 입력 노트의 timing과 실제 음성의 timing의 차이를 HSMMs과 같은 별도의 aligner를 사용하였지만, 이 aligner로 구한 phoneme boundary의 오류로 인하여 가창 음성의 퀄리티가 떨어짐
  - Goal : 별도의 aligner 없이 attention 방법을 이용하여 노트와 음성의 timing을 보정함으로써 더 자연스러운 가창 음성을 합성
  - Contribution : HSMMs와 같은 별도의 aligner 없이 timing을 학습하는 방법을 제안했고 (성능이 별로;), attention mechanism을 이용하여 timing 이 더 잘 맞는 가창 음성을 합성
- Proposed Method
  - Figure 1은 conventional DNN-based SVS로 score feature (가사, 노트 길이, 피치 등, 그림의 초록색)로부터 1) time-lag 모델로 타이밍을 맞추고 2) 이를 HSMMs와 같은 모델로 phoneme마다 frame의 개수(phoneme duration)를 구하여 정렬시킨 뒤 acoustic feature (mel-spectrogram, 그림의 파란색) 를 예측하도록 학습
  - 제안하는 모델 (Figure2, 3)은 Tacotron2를 기반으로 score로부터 heuristic rule을 이용하여 pseudo phoneme-boundaries를 구하여 score feature를 frame-level로 변환
  - 이를 attention 기반의 DNN을 이용하여 별도의 aligner 없이 acoustic feature를 예측하는 방법을 사용
- Experiment / Results
  - Dataset은 70곡 / 여자 1명 / 48kHz 음성
  - feature는 50d mel-cepstral coefficients, log f0, 25d aperiodicity measures, 1d vibrato component, v/uv flag
  - 여기서 vibrato component는 log F0와 median-smoothing을 시킨 log F0 사이의 차이를 이용
  - 실험 결과
    - fal w/o att : 학습에서는 HSMMs을 이용하여 phoneme boundary를 사용하고 합성에서는 time-lag 모델을 사용한 기존 모델
    - fal w/att : fal w/o att 모델에서 attention mechanism 추가
    - model w/att : 학습과 합성에서 모두 time-lag 모델 사용 (HSMMs 사용 x)
    - pseudo w/att : pseudo-phoneme boundary를 사용한 모델
    - MOS가 모두 낮은 모습
    - fal w/o att, fal w/ att 모델이 다른 두 개보다 timing을 잘 맞추는 걸로 보아 forced aligner를 사용하는게 더 좋다?
    - attention mechanism을 쓰는 편이 더 좋은 것은 의미가 있음

흥미로운 연구 한 줄 요약

Modelling low-resource accents without accent-specific TTS frontend
- target accent speaker의 데이터셋이 부족한 것을 voice conversion을 이용하여 다양한 음색으로 변환시켜 사용하는 data augmentation 방법을 이용하였고 영국 억양과 미국 억양에 대해서 평가하였다.
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
- audio가 들어갔을 때 end-to-end로 입술 모양과 턱 모션을 바로 만들어내는 모델을 제안하고 있고 diffusion model을 audio-driven video editing task에 적용한 첫번째 논문이라고 하고 있습니다.

Jan 15 '23 03:01 ghlee3401

Scaling Instruction-Finetuned Language Models (Arxiv 2022 Dec 6, Google)

Instruction (Multi-task) Fine-Tuning on PaLM (8B, 62B, 540B) and T5 (80M~11B) : Flan-PaLM, Flan-T5
Task Scaling up to 1.8K
Task Mixtures : Muffin (80 tasks), T0-SF (193 tasks), NIV2 (1554 tasks), Chain-of-thought (CoT) datasets
Evaluation : MMLU, BBH, TyDiQA, MGSM

282 tasks가 넘어가면 성능이 거의 saturate 됨. Task는 무한대로 키울 필요 없나? (NIV2 넣기전까지 오르고 끝)
(개인적인 의견) 각 task마다 성격이 다르고 비슷한 것들도 많으므로, task 갯수의 절대치는 큰 의미가 없다고 봄. 어떤 종류의 다양한 task를 써야 LLM의 성능을 최대한 끌어낼 수 있는지가 관건일 듯.