WeeklyArxivTalk
WeeklyArxivTalk copied to clipboard
[20230115] Weekly AI ArXiv 만담 시즌2 - 2회차
News
- Conferences
- ACL 2023: Full paper deadline: 1.21 밤 9시 (Abs 제출 수고하셨습니다)
- ICML 2023: Full paper deadline: 1.28 새벽 5시 (별도 abs 데드라인 없어요)
- ICLR 2023 Notification: 1.21 오전 11시
- NeurIPS 2022 의 온라인 프로그램이 이제 등록하지 않아도 시청할 수 있습니다.
ArXiv
-
GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities
- Bar Exam (변호사시험)을 넘어 이젠 CPA도??
- text-davinci-003 의 Zero-shot 테스트
- AICPA의 Assessment 1은 정량 수리적인 것들이 많아 Zeroshot 성능이 별로 (14.4% 정확도)
- Assessment 2는 좀더 지식과 기술에 관련된 것들이라 Zeroshot으로 Top-1 57% 정도 Top-2면 80%대 중반까지
- 소스코드: https://github.com/mjbommar/gpt-as-knowledge-worker
Arxiv
-
Singing voice synthesis based on frame-level sequence-to-sequence models considering vocal timing deviation
- Keyword : singing voice synthesis, frame-level sequence-to-sequence models, attention mechanism
- Sample URL : https://www.sp.nitech.ac.jp/~mkring/demo/ICASSP2023/
-
Motivation / Goal / Contribution
- Motivation : 기존 가창 음성 합성 시스템에서는 입력 노트의 timing과 실제 음성의 timing의 차이를 HSMMs과 같은 별도의 aligner를 사용하였지만, 이 aligner로 구한 phoneme boundary의 오류로 인하여 가창 음성의 퀄리티가 떨어짐
- Goal : 별도의 aligner 없이 attention 방법을 이용하여 노트와 음성의 timing을 보정함으로써 더 자연스러운 가창 음성을 합성
- Contribution : HSMMs와 같은 별도의 aligner 없이 timing을 학습하는 방법을 제안했고 (성능이 별로;), attention mechanism을 이용하여 timing 이 더 잘 맞는 가창 음성을 합성
-
Proposed Method
- Figure 1은 conventional DNN-based SVS로 score feature (가사, 노트 길이, 피치 등, 그림의 초록색)로부터 1) time-lag 모델로 타이밍을 맞추고 2) 이를 HSMMs와 같은 모델로 phoneme마다 frame의 개수(phoneme duration)를 구하여 정렬시킨 뒤 acoustic feature (mel-spectrogram, 그림의 파란색) 를 예측하도록 학습
- 제안하는 모델 (Figure2, 3)은 Tacotron2를 기반으로 score로부터 heuristic rule을 이용하여 pseudo phoneme-boundaries를 구하여 score feature를 frame-level로 변환
- 이를 attention 기반의 DNN을 이용하여 별도의 aligner 없이 acoustic feature를 예측하는 방법을 사용
-
Experiment / Results
- Dataset은 70곡 / 여자 1명 / 48kHz 음성
- feature는 50d mel-cepstral coefficients, log f0, 25d aperiodicity measures, 1d vibrato component, v/uv flag
- 여기서 vibrato component는 log F0와 median-smoothing을 시킨 log F0 사이의 차이를 이용
- 실험 결과
- fal w/o att : 학습에서는 HSMMs을 이용하여 phoneme boundary를 사용하고 합성에서는 time-lag 모델을 사용한 기존 모델
- fal w/att : fal w/o att 모델에서 attention mechanism 추가
- model w/att : 학습과 합성에서 모두 time-lag 모델 사용 (HSMMs 사용 x)
- pseudo w/att : pseudo-phoneme boundary를 사용한 모델
- MOS가 모두 낮은 모습
- fal w/o att, fal w/ att 모델이 다른 두 개보다 timing을 잘 맞추는 걸로 보아 forced aligner를 사용하는게 더 좋다?
- attention mechanism을 쓰는 편이 더 좋은 것은 의미가 있음
흥미로운 연구 한 줄 요약
-
Modelling low-resource accents without accent-specific TTS frontend
- target accent speaker의 데이터셋이 부족한 것을 voice conversion을 이용하여 다양한 음색으로 변환시켜 사용하는 data augmentation 방법을 이용하였고 영국 억양과 미국 억양에 대해서 평가하였다.
- target accent speaker의 데이터셋이 부족한 것을 voice conversion을 이용하여 다양한 음색으로 변환시켜 사용하는 data augmentation 방법을 이용하였고 영국 억양과 미국 억양에 대해서 평가하였다.
-
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model
- audio가 들어갔을 때 end-to-end로 입술 모양과 턱 모션을 바로 만들어내는 모델을 제안하고 있고 diffusion model을 audio-driven video editing task에 적용한 첫번째 논문이라고 하고 있습니다.
- audio가 들어갔을 때 end-to-end로 입술 모양과 턱 모션을 바로 만들어내는 모델을 제안하고 있고 diffusion model을 audio-driven video editing task에 적용한 첫번째 논문이라고 하고 있습니다.
Scaling Instruction-Finetuned Language Models (Arxiv 2022 Dec 6, Google)
- Instruction (Multi-task) Fine-Tuning on PaLM (8B, 62B, 540B) and T5 (80M~11B) : Flan-PaLM, Flan-T5
- Task Scaling up to 1.8K
- Task Mixtures : Muffin (80 tasks), T0-SF (193 tasks), NIV2 (1554 tasks), Chain-of-thought (CoT) datasets
- Evaluation : MMLU, BBH, TyDiQA, MGSM
- 282 tasks가 넘어가면 성능이 거의 saturate 됨. Task는 무한대로 키울 필요 없나? (NIV2 넣기전까지 오르고 끝)
- (개인적인 의견) 각 task마다 성격이 다르고 비슷한 것들도 많으므로, task 갯수의 절대치는 큰 의미가 없다고 봄. 어떤 종류의 다양한 task를 써야 LLM의 성능을 최대한 끌어낼 수 있는지가 관건일 듯.
- CoT가 Math Problem 같이 Reasoning이 heavy한 Task 뿐 아니라 일반적으로 어려운 태스크들에도 잘 먹힘. Self-Consistency 테크닉이 중요.
- Code Model 웰케 잘함 ?!
- Flan-T5 도 상당히 잘함. MMLU에서 PaLM 62B 거의 맞먹음.
- InstructGPT 처럼 불특정 사용자가 아무렇게나 물어보는 것에도 대답 잘함. (근데 여러번 sampling 후 무슨 filtering을 함)
State of AI in 2002 and a half decade in review - McKinsey, Dec 2022
[Reference] UpstageAI 이활석 CTO님의 맥킨지리포트 리뷰 포스팅 at Tensorflow Korea
1. Five years in review: AI adoption, impact, and spend
[1-1]
AI를 비즈니스에 도입한 정도가 지난 5년간 두 배가 되었습니다 (but 둔화..)
[1-2]
실제 제품/서비스에 쓰이는 비율은 공장자동화나 Vision, NLP 등이 높고 Generative AI는 아직은 낮습니다
[1-3]
AI의 쓰임은 1) 서비스를 최적화 하거나 2) 마케팅을 최적화 하거나 3) AI 중심의 제품/피처로 쓰거나
[1-4]
비용절감은 물류 쪽에서, 매출상승은 마케팅/제품개발 쪽에서
2. Mind the gap: AI leaders pulling ahead
[2-1]
전략: 비즈니스밸류와 AI를 align 시키는 능력, 명확한 비전과 이종부서 협업 능력
[2-2]
데이터: 어떻게든 (e.g. 적은 데이터, 작은 모델)로 빨리 목적을 달성하게 조달하는 능력
[2-3]
모델/기술: 어떻게든 (e.g. 적은 데이터, 작은 모델)로 빨리 목적을 달성하게 개하는 능력 + 지속적 개선
[2-4]
일하는 법: full life cycle에 대한 고려, 팀 내 필요 AI기술 교육,
3. AI talent tales: New hot roles, continued diversity woes
[3-1]
소프트웨어 개발자 뽑기가 가장 힘듭니다 = AI가 서비스 적용 단계에 접어들었습니다.
[3-2]
AI중심으로 잘 나가는 회사는 AI연구자, ML연구자 등을 잘 활용합니다.
자세한 내용은 맥킨지리포트 원문에서 확인하세요
새해 복 많이 받으세요! - ART Lab CEO, Terry