fish-speech icon indicating copy to clipboard operation
fish-speech copied to clipboard

inference推理效果还行,generate后再用inference生成的人声效果就较差

Open FrozenZero opened this issue 1 year ago • 3 comments

环境: ubuntu1804, Cuda11.8,python 10,torch 2.2.1+cu118

我第一步使用 python tools/vqgan/inference.py \ -i "sp1.wav" \ --checkpoint-path "checkpoints/vqgan-v1.pth" 生成了fake.npy和fake.wav文件,此时fake.wav跟sp1声音相似度高。 但我第二步用如下语句生成code_0,npy后, python tools/llama/generate.py \ --text "要转换的文本" \ --prompt-text "sp1.wav的text" \ --prompt-tokens "fake.npy" \ --checkpoint-path "checkpoints/text2semantic-400m-v0.2-4k.pth" \ --num-samples 2 \ --compile 再使用如下语句推理(文件为out.wav),发现效果很差。 python tools/vqgan/inference.py \ -i "codes_0.npy" \ --checkpoint-path "checkpoints/vqgan-v1.pth"

sp1.wav是英文音频,长度有十多秒 音频文件如下: out.zip

请问能在inference.py 直接输入文本推理么(直接文本到音频)?或者有没有什么更好的方法推荐?或者说我用英文的语料再去微调下?谢谢

FrozenZero avatar Feb 28 '24 11:02 FrozenZero

目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.

leng-yue avatar Feb 29 '24 06:02 leng-yue

目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.

冷月大哥,咱有没有内部的讨论群之类的,llm搞过一点,不知能否能跟大佬共同进步呢。

FrozenZero avatar Feb 29 '24 07:02 FrozenZero

目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.

你说的“时序依赖”指什么啊?能先说一下吗?

wincing2 avatar Mar 09 '24 09:03 wincing2