什么叫声学模型？什么叫唱法模型？这两个模型是什么关系？

Open liangcaihua opened this issue 2 years ago • 1 comments

小白不明白。我也看过相关的文字和视频，但我还是不明白。谁能把这些基本的事情解释清楚吗？非常感谢！如上，声学和唱法模型都要做吗？还是只做一个就行，最佳实践是什么呢？

原文中有这样一段话：

简单地说，歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。

因此，在训练变奏曲歌唱模型之前，训练声学模型进行模型推理

更加困惑

我认为这是一个伟大的项目，非常感谢大家！

Dec 18 '23 13:12 liangcaihua

你講的應該是openVPI維護的版本，唱法模型主要是用來把word切割成phoneme，並且評估一個音符長度要如何分配給兩個音節，並自動加入表情控制參數(類似midi的cc），獲得了一份完整的json資料表(.ds)後，使用這個ds文件給acoustic render成wave檔案，渲染的方法基本上是照搬difussion model的演算法，本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度，並且用另一個模型預測最佳的邊界值(k)，而不是用一個固定常數，最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助

Apr 15 '24 12:04 Hikari-Tsai

什么叫声学模型？ 什么叫唱法模型？这两个模型是什么关系？

什么叫声学模型？什么叫唱法模型？这两个模型是什么关系？