CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

模型应该微调llm还是flow

Open alu7777 opened this issue 5 months ago • 14 comments

我主要是想通过微调可以让模型在特定speaker上表现更为稳定和自然。

我看cosyvoice2论文中llm只处理semantic信息,音色等相关的都是flow在处理,我微调时是不是只微调flow模型就可以了?

alu7777 avatar Jul 01 '25 07:07 alu7777

理论上都要微调。 llm重点管韵律风格和生成内容一致性; flow重点管声学细节和音色相似度。

JohnHerry avatar Jul 01 '25 07:07 JohnHerry

理论上都要微调。 llm重点管韵律风格和生成内容一致性; flow重点管声学细节和音色相似度。

好的感谢🙏

请问你之前是也有过类似的微调实验吗,要让某个特定speaker的效果比zero-shot要好要稳定的话至少需要多少时长的数据?

微调过后在inference阶段还是要用同一个speaker的prompt来做zero-shot的对吧,只是把llm和flow模型切到微调后的版本。

alu7777 avatar Jul 01 '25 08:07 alu7777

仔细看了一下论文,如果走微调路线,推理时应该是使用sft方法,不需要prompt。

alu7777 avatar Jul 01 '25 08:07 alu7777

有人微调成功吗。。 想了解下微调的效果提升

GT-TOP avatar Jul 01 '25 09:07 GT-TOP

仔细看了一下论文,如果走微调路线,推理时应该是使用sft方法,不需要prompt。

请问你用inference_sft方法效果稳定吗

jokerlj92 avatar Jul 07 '25 08:07 jokerlj92

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

RyrieNorth avatar Jul 14 '25 11:07 RyrieNorth

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

这用了多少的数据?

ChengsongLu avatar Jul 15 '25 01:07 ChengsongLu

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

这用了多少的数据?

不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了

RyrieNorth avatar Jul 15 '25 04:07 RyrieNorth

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

这用了多少的数据?

不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了

数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

RyrieNorth avatar Jul 15 '25 04:07 RyrieNorth

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

这用了多少的数据?

不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了

数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

推理用的inference_sft方法吗

jokerlj92 avatar Jul 15 '25 11:07 jokerlj92

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

这用了多少的数据?

不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了

数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

推理用的inference_sft方法吗

是的,启用了float16,trt和vllm加速推理

RyrieNorth avatar Jul 15 '25 11:07 RyrieNorth

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

单独调还是一起调呢

wwfcnu avatar Aug 05 '25 03:08 wwfcnu

有人微调成功吗。。 想了解下微调的效果提升

https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了

这用了多少的数据?

不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了

数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa

推理用的inference_sft方法吗

是的,启用了float16,trt和vllm加速推理

推理时候用inference_sft方法,那么instruct_text 如何填写呢?为空吗?

yiluzhuimeng avatar Sep 14 '25 02:09 yiluzhuimeng

llm部分只用100多条进行为微调,是使用了lora吗

ltcxjtu avatar Oct 24 '25 09:10 ltcxjtu