WeeklyArxivTalk icon indicating copy to clipboard operation
WeeklyArxivTalk copied to clipboard

[20230115] Weekly AI ArXiv 만담 시즌2 - 2회차

Open jungwoo-ha opened this issue 2 years ago • 3 comments

News

ArXiv

  • GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities
    • Bar Exam (변호사시험)을 넘어 이젠 CPA도??
    • text-davinci-003 의 Zero-shot 테스트
    • AICPA의 Assessment 1은 정량 수리적인 것들이 많아 Zeroshot 성능이 별로 (14.4% 정확도)
    • Assessment 2는 좀더 지식과 기술에 관련된 것들이라 Zeroshot으로 Top-1 57% 정도 Top-2면 80%대 중반까지
    • 소스코드: https://github.com/mjbommar/gpt-as-knowledge-worker image

jungwoo-ha avatar Jan 15 '23 00:01 jungwoo-ha

Arxiv

  • Singing voice synthesis based on frame-level sequence-to-sequence models considering vocal timing deviation
    • Keyword : singing voice synthesis, frame-level sequence-to-sequence models, attention mechanism
    • Sample URL : https://www.sp.nitech.ac.jp/~mkring/demo/ICASSP2023/
    • Motivation / Goal / Contribution
      • Motivation : 기존 가창 음성 합성 시스템에서는 입력 노트의 timing과 실제 음성의 timing의 차이를 HSMMs과 같은 별도의 aligner를 사용하였지만, 이 aligner로 구한 phoneme boundary의 오류로 인하여 가창 음성의 퀄리티가 떨어짐
      • Goal : 별도의 aligner 없이 attention 방법을 이용하여 노트와 음성의 timing을 보정함으로써 더 자연스러운 가창 음성을 합성
      • Contribution : HSMMs와 같은 별도의 aligner 없이 timing을 학습하는 방법을 제안했고 (성능이 별로;), attention mechanism을 이용하여 timing 이 더 잘 맞는 가창 음성을 합성
    • Proposed Method
      • Figure 1은 conventional DNN-based SVS로 score feature (가사, 노트 길이, 피치 등, 그림의 초록색)로부터 1) time-lag 모델로 타이밍을 맞추고 2) 이를 HSMMs와 같은 모델로 phoneme마다 frame의 개수(phoneme duration)를 구하여 정렬시킨 뒤 acoustic feature (mel-spectrogram, 그림의 파란색) 를 예측하도록 학습
      • 제안하는 모델 (Figure2, 3)은 Tacotron2를 기반으로 score로부터 heuristic rule을 이용하여 pseudo phoneme-boundaries를 구하여 score feature를 frame-level로 변환
      • 이를 attention 기반의 DNN을 이용하여 별도의 aligner 없이 acoustic feature를 예측하는 방법을 사용
    • Experiment / Results
      • Dataset은 70곡 / 여자 1명 / 48kHz 음성
      • feature는 50d mel-cepstral coefficients, log f0, 25d aperiodicity measures, 1d vibrato component, v/uv flag
      • 여기서 vibrato component는 log F0와 median-smoothing을 시킨 log F0 사이의 차이를 이용
      • 실험 결과
        • fal w/o att : 학습에서는 HSMMs을 이용하여 phoneme boundary를 사용하고 합성에서는 time-lag 모델을 사용한 기존 모델
        • fal w/att : fal w/o att 모델에서 attention mechanism 추가
        • model w/att : 학습과 합성에서 모두 time-lag 모델 사용 (HSMMs 사용 x)
        • pseudo w/att : pseudo-phoneme boundary를 사용한 모델
        • MOS가 모두 낮은 모습
        • fal w/o att, fal w/ att 모델이 다른 두 개보다 timing을 잘 맞추는 걸로 보아 forced aligner를 사용하는게 더 좋다?
        • attention mechanism을 쓰는 편이 더 좋은 것은 의미가 있음

흥미로운 연구 한 줄 요약

  1. Modelling low-resource accents without accent-specific TTS frontend
    • target accent speaker의 데이터셋이 부족한 것을 voice conversion을 이용하여 다양한 음색으로 변환시켜 사용하는 data augmentation 방법을 이용하였고 영국 억양과 미국 억양에 대해서 평가하였다.
  2. Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
    • audio가 들어갔을 때 end-to-end로 입술 모양과 턱 모션을 바로 만들어내는 모델을 제안하고 있고 diffusion model을 audio-driven video editing task에 적용한 첫번째 논문이라고 하고 있습니다.

ghlee3401 avatar Jan 15 '23 03:01 ghlee3401

Scaling Instruction-Finetuned Language Models (Arxiv 2022 Dec 6, Google)

  • Instruction (Multi-task) Fine-Tuning on PaLM (8B, 62B, 540B) and T5 (80M~11B) : Flan-PaLM, Flan-T5
  • Task Scaling up to 1.8K
  • Task Mixtures : Muffin (80 tasks), T0-SF (193 tasks), NIV2 (1554 tasks), Chain-of-thought (CoT) datasets
  • Evaluation : MMLU, BBH, TyDiQA, MGSM

image

  • 282 tasks가 넘어가면 성능이 거의 saturate 됨. Task는 무한대로 키울 필요 없나? (NIV2 넣기전까지 오르고 끝)
  • (개인적인 의견) 각 task마다 성격이 다르고 비슷한 것들도 많으므로, task 갯수의 절대치는 큰 의미가 없다고 봄. 어떤 종류의 다양한 task를 써야 LLM의 성능을 최대한 끌어낼 수 있는지가 관건일 듯.

image

  • CoT가 Math Problem 같이 Reasoning이 heavy한 Task 뿐 아니라 일반적으로 어려운 태스크들에도 잘 먹힘. Self-Consistency 테크닉이 중요.
  • Code Model 웰케 잘함 ?!

image

image

  • Flan-T5 도 상당히 잘함. MMLU에서 PaLM 62B 거의 맞먹음.

image

  • InstructGPT 처럼 불특정 사용자가 아무렇게나 물어보는 것에도 대답 잘함. (근데 여러번 sampling 후 무슨 filtering을 함)

dhlee347 avatar Jan 15 '23 11:01 dhlee347

State of AI in 2002 and a half decade in review - McKinsey, Dec 2022

[Reference] UpstageAI 이활석 CTO님의 맥킨지리포트 리뷰 포스팅 at Tensorflow Korea

1. Five years in review: AI adoption, impact, and spend

[1-1] AI를 비즈니스에 도입한 정도가 지난 5년간 두 배가 되었습니다 (but 둔화..) image

[1-2] 실제 제품/서비스에 쓰이는 비율은 공장자동화나 Vision, NLP 등이 높고 Generative AI는 아직은 낮습니다 image

[1-3] AI의 쓰임은 1) 서비스를 최적화 하거나 2) 마케팅을 최적화 하거나 3) AI 중심의 제품/피처로 쓰거나 image

[1-4] 비용절감은 물류 쪽에서, 매출상승은 마케팅/제품개발 쪽에서 image

2. Mind the gap: AI leaders pulling ahead

[2-1] 전략: 비즈니스밸류와 AI를 align 시키는 능력, 명확한 비전과 이종부서 협업 능력 image

[2-2] 데이터: 어떻게든 (e.g. 적은 데이터, 작은 모델)로 빨리 목적을 달성하게 조달하는 능력 image

[2-3] 모델/기술: 어떻게든 (e.g. 적은 데이터, 작은 모델)로 빨리 목적을 달성하게 개하는 능력 + 지속적 개선 image

[2-4] 일하는 법: full life cycle에 대한 고려, 팀 내 필요 AI기술 교육, image

3. AI talent tales: New hot roles, continued diversity woes

[3-1] 소프트웨어 개발자 뽑기가 가장 힘듭니다 = AI가 서비스 적용 단계에 접어들었습니다. image

[3-2] AI중심으로 잘 나가는 회사는 AI연구자, ML연구자 등을 잘 활용합니다. image

자세한 내용은 맥킨지리포트 원문에서 확인하세요

새해 복 많이 받으세요! - ART Lab CEO, Terry

terryum avatar Jan 15 '23 12:01 terryum