CosyVoice 模型应该微调llm还是flow

我主要是想通过微调可以让模型在特定speaker上表现更为稳定和自然。

我看cosyvoice2论文中llm只处理semantic信息，音色等相关的都是flow在处理，我微调时是不是只微调flow模型就可以了？

Jul 01 '25 07:07 alu7777

理论上都要微调。 llm重点管韵律风格和生成内容一致性； flow重点管声学细节和音色相似度。

Jul 01 '25 07:07 JohnHerry

理论上都要微调。 llm重点管韵律风格和生成内容一致性； flow重点管声学细节和音色相似度。

好的感谢🙏

请问你之前是也有过类似的微调实验吗，要让某个特定speaker的效果比zero-shot要好要稳定的话至少需要多少时长的数据？

微调过后在inference阶段还是要用同一个speaker的prompt来做zero-shot的对吧，只是把llm和flow模型切到微调后的版本。

Jul 01 '25 08:07 alu7777

仔细看了一下论文，如果走微调路线，推理时应该是使用sft方法，不需要prompt。

Jul 01 '25 08:07 alu7777

有人微调成功吗。。想了解下微调的效果提升

Jul 01 '25 09:07 GT-TOP

仔细看了一下论文，如果走微调路线，推理时应该是使用sft方法，不需要prompt。

请问你用inference_sft方法效果稳定吗

Jul 07 '25 08:07 jokerlj92

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

Jul 14 '25 11:07 RyrieNorth

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

这用了多少的数据？

Jul 15 '25 01:07 ChengsongLu

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

这用了多少的数据？

不多，不到100条，好坏取决音频的质量，我是完全提的干声，很快就见效了

Jul 15 '25 04:07 RyrieNorth

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

这用了多少的数据？

不多，不到100条，好坏取决音频的质量，我是完全提的干声，很快就见效了

数据集地址：https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

Jul 15 '25 04:07 RyrieNorth

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

这用了多少的数据？

不多，不到100条，好坏取决音频的质量，我是完全提的干声，很快就见效了

数据集地址：https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

推理用的inference_sft方法吗

Jul 15 '25 11:07 jokerlj92

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

这用了多少的数据？

不多，不到100条，好坏取决音频的质量，我是完全提的干声，很快就见效了

数据集地址：https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

推理用的inference_sft方法吗

是的，启用了float16，trt和vllm加速推理

Jul 15 '25 11:07 RyrieNorth

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

单独调还是一起调呢

Aug 05 '25 03:08 wwfcnu

有人微调成功吗。。想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅，llm和flow都调了

这用了多少的数据？

不多，不到100条，好坏取决音频的质量，我是完全提的干声，很快就见效了

数据集地址：https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

推理用的inference_sft方法吗

是的，启用了float16，trt和vllm加速推理

推理时候用inference_sft方法，那么instruct_text 如何填写呢？为空吗？

Sep 14 '25 02:09 yiluzhuimeng

llm部分只用100多条进行为微调，是使用了lora吗

Oct 24 '25 09:10 ltcxjtu