alu7777

Results 2 comments of alu7777

> 理论上都要微调。 llm重点管韵律风格和生成内容一致性; flow重点管声学细节和音色相似度。 好的感谢🙏 请问你之前是也有过类似的微调实验吗,要让某个特定speaker的效果比zero-shot要好要稳定的话至少需要多少时长的数据? 微调过后在inference阶段还是要用同一个speaker的prompt来做zero-shot的对吧,只是把llm和flow模型切到微调后的版本。

仔细看了一下论文,如果走微调路线,推理时应该是使用sft方法,不需要prompt。