GPT-SoVITS
GPT-SoVITS copied to clipboard
推理声音时能否去掉原始素材?
trafficstars
训练出来的模型效果挺好的,只是在根据输入的文字推理语音时,还要提供一段原始素材的音频和文字。这个太麻烦了,无法大批量的推理语音。有啥办法可以不用原始素材来推理吗?我理解用原始素材训练出模型就可以了,后续推理不应该再用原始素材了。 而且推荐时原始素材的语音长度必须要和待推理的文本长度相同才行,否则会出现推理结果不准确
可以考虑自动关联,比如指定自动读取某一个文件夹中的同名文件。这样可以在最小工作量下保持友好的用户体验。 当然更加的方案是直接打包大模型中。