模型应该微调llm还是flow
我主要是想通过微调可以让模型在特定speaker上表现更为稳定和自然。
我看cosyvoice2论文中llm只处理semantic信息,音色等相关的都是flow在处理,我微调时是不是只微调flow模型就可以了?
理论上都要微调。 llm重点管韵律风格和生成内容一致性; flow重点管声学细节和音色相似度。
理论上都要微调。 llm重点管韵律风格和生成内容一致性; flow重点管声学细节和音色相似度。
好的感谢🙏
请问你之前是也有过类似的微调实验吗,要让某个特定speaker的效果比zero-shot要好要稳定的话至少需要多少时长的数据?
微调过后在inference阶段还是要用同一个speaker的prompt来做zero-shot的对吧,只是把llm和flow模型切到微调后的版本。
仔细看了一下论文,如果走微调路线,推理时应该是使用sft方法,不需要prompt。
有人微调成功吗。。 想了解下微调的效果提升
仔细看了一下论文,如果走微调路线,推理时应该是使用sft方法,不需要prompt。
请问你用inference_sft方法效果稳定吗
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
这用了多少的数据?
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
这用了多少的数据?
不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
这用了多少的数据?
不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了
数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
这用了多少的数据?
不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了
数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa
推理用的inference_sft方法吗
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
这用了多少的数据?
不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了
数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa
推理用的inference_sft方法吗
是的,启用了float16,trt和vllm加速推理
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
单独调还是一起调呢
有人微调成功吗。。 想了解下微调的效果提升
https://www.bilibili.com/video/BV1DbKzztE8B/?spm_id_from=333.1387.homepage.video_card.click&vd_source=97ed1749e9c100801bceb6350684c645 这是我调的特雷西娅,llm和flow都调了
这用了多少的数据?
不多,不到100条,好坏取决音频的质量,我是完全提的干声,很快就见效了
数据集地址:https://huggingface.co/datasets/RyrieNorth/Arknights_Theresa
推理用的inference_sft方法吗
是的,启用了float16,trt和vllm加速推理
推理时候用inference_sft方法,那么instruct_text 如何填写呢?为空吗?
llm部分只用100多条进行为微调,是使用了lora吗