Sean.Hwang
Sean.Hwang
尝试过修改为chat.openai.com不行,好像要特殊方法,在另外一个仓库有看到别人代理好的地址,但是说方法不公开,怕公开就被openai封了
> > > 你好,很高兴你有微调的兴趣,audio到text的微调方案几乎和image到text的相差不大,修改成本比较小. 我们会在下周给出示例代码. > > > > > > 我看到模型架构的audio encoder似乎与qwen是分离的,如果我的数据是有输入audio对应文本的,我是不是也可以直接去做text2text的sft > > 您好,这种方式可能会导致无法完成 音频输入情况下的对齐, 您可以尝试使用[https://github.com/hiyouga/LLaMA-Factory/pull/6701来进行微调,已经支持](https://github.com/hiyouga/LLaMA-Factory/pull/6701%E6%9D%A5%E8%BF%9B%E8%A1%8C%E5%BE%AE%E8%B0%83%EF%BC%8C%E5%B7%B2%E7%BB%8F%E6%94%AF%E6%8C%81) audio 2 text啦 您好,请问一下,多个音频比如一个是用于声音克隆的音频,一个是需要改变声音的音频,这种场景的微调数据json大概是什么样的?