CosyVoice
CosyVoice copied to clipboard
[Fix] remove the speaker embedding in the llm inputs during instruct fine-tuning
- 问题:在训练阶段,LLM输入序列中有speaker embedding。在指令微调模型推理时LLM输入序列没有speaker embedding。因此对于指令微调模型而言,训练和推理存在mismatch,效果不理想。
- 解决方案:LLM增加instruct_finetuning的参数,缺省值为False。当该参数为True时,训练阶段也会去掉LLM输入序列中的speaker embedding,从而保证指令微调模型可以正常训练和推理。