CosyVoice icon indicating copy to clipboard operation
CosyVoice copied to clipboard

[Fix] remove the speaker embedding in the llm inputs during instruct fine-tuning

Open Shengqiang-Li opened this issue 5 months ago • 0 comments

  1. 问题:在训练阶段,LLM输入序列中有speaker embedding。在指令微调模型推理时LLM输入序列没有speaker embedding。因此对于指令微调模型而言,训练和推理存在mismatch,效果不理想。
  2. 解决方案:LLM增加instruct_finetuning的参数,缺省值为False。当该参数为True时,训练阶段也会去掉LLM输入序列中的speaker embedding,从而保证指令微调模型可以正常训练和推理。

Shengqiang-Li avatar Sep 27 '24 06:09 Shengqiang-Li