fish-speech inference推理效果还行，generate后再用inference生成的人声效果就较差

环境： ubuntu1804, Cuda11.8,python 10,torch 2.2.1+cu118

我第一步使用 python tools/vqgan/inference.py \ -i "sp1.wav" \ --checkpoint-path "checkpoints/vqgan-v1.pth" 生成了fake.npy和fake.wav文件，此时fake.wav跟sp1声音相似度高。但我第二步用如下语句生成code_0,npy后， python tools/llama/generate.py \ --text "要转换的文本" \ --prompt-text "sp1.wav的text" \ --prompt-tokens "fake.npy" \ --checkpoint-path "checkpoints/text2semantic-400m-v0.2-4k.pth" \ --num-samples 2 \ --compile 再使用如下语句推理(文件为out.wav)，发现效果很差。 python tools/vqgan/inference.py \ -i "codes_0.npy" \ --checkpoint-path "checkpoints/vqgan-v1.pth"

sp1.wav是英文音频，长度有十多秒音频文件如下： out.zip

请问能在inference.py 直接输入文本推理么（直接文本到音频）？或者有没有什么更好的方法推荐？或者说我用英文的语料再去微调下？谢谢

Feb 28 '24 11:02 FrozenZero

目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.

Feb 29 '24 06:02 leng-yue

目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.

冷月大哥，咱有没有内部的讨论群之类的，llm搞过一点，不知能否能跟大佬共同进步呢。

Feb 29 '24 07:02 FrozenZero

目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.

你说的“时序依赖”指什么啊？能先说一下吗？

Mar 09 '24 09:03 wincing2