DiffSinger icon indicating copy to clipboard operation
DiffSinger copied to clipboard

什么叫声学模型? 什么叫唱法模型?这两个模型是什么关系?

Open liangcaihua opened this issue 2 years ago • 1 comments

小白不明白。我也看过相关的文字和视频,但我还是不明白。谁能把这些基本的事情解释清楚吗?非常感谢! 如上,声学和唱法模型都要做吗?还是只做一个就行,最佳实践是什么呢?

原文中有这样一段话:

简单地说,歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。

因此,在训练变奏曲歌唱模型之前,训练声学模型进行模型推理

更加困惑

我认为这是一个伟大的项目,非常感谢大家!

liangcaihua avatar Dec 18 '23 13:12 liangcaihua

你講的應該是openVPI維護的版本,唱法模型主要是用來把word切割成phoneme,並且評估一個音符長度要如何分配給兩個音節,並自動加入表情控制參數(類似midi的cc),獲得了一份完整的json資料表(.ds)後,使用這個ds文件給acoustic render成wave檔案,渲染的方法基本上是照搬difussion model的演算法,本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度,並且用另一個模型預測最佳的邊界值(k),而不是用一個固定常數,最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助

Hikari-Tsai avatar Apr 15 '24 12:04 Hikari-Tsai