inference推理效果还行,generate后再用inference生成的人声效果就较差
环境: ubuntu1804, Cuda11.8,python 10,torch 2.2.1+cu118
我第一步使用
python tools/vqgan/inference.py \ -i "sp1.wav" \ --checkpoint-path "checkpoints/vqgan-v1.pth"
生成了fake.npy和fake.wav文件,此时fake.wav跟sp1声音相似度高。
但我第二步用如下语句生成code_0,npy后,
python tools/llama/generate.py \ --text "要转换的文本" \ --prompt-text "sp1.wav的text" \ --prompt-tokens "fake.npy" \ --checkpoint-path "checkpoints/text2semantic-400m-v0.2-4k.pth" \ --num-samples 2 \ --compile
再使用如下语句推理(文件为out.wav),发现效果很差。
python tools/vqgan/inference.py \ -i "codes_0.npy" \ --checkpoint-path "checkpoints/vqgan-v1.pth"
sp1.wav是英文音频,长度有十多秒 音频文件如下: out.zip
请问能在inference.py 直接输入文本推理么(直接文本到音频)?或者有没有什么更好的方法推荐?或者说我用英文的语料再去微调下?谢谢
目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.
目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.
冷月大哥,咱有没有内部的讨论群之类的,llm搞过一点,不知能否能跟大佬共同进步呢。
目前我们在优化 vq 以及 llm 生成部分. 现在的时序依赖有一点问题.
你说的“时序依赖”指什么啊?能先说一下吗?