GPT-SoVITS icon indicating copy to clipboard operation
GPT-SoVITS copied to clipboard

尝试 stream infer

Open L-jasmine opened this issue 5 months ago • 5 comments

~~请先不要merge(展示不出)~~ 我自己本机上效果还可以,感兴趣的玩家可以弄到自己本机试试效果怎么样

要先新建一个 streaming 文件夹,代码里面没有兼容那种情况,或者把 output 路径换成别的文件夹。

L-jasmine avatar Jun 16 '25 19:06 L-jasmine

这个 pr 已经准备好被 merge 了。大佬看看还有什么要补充的吗?

L-jasmine avatar Jun 17 '25 17:06 L-jasmine

@RVC-Boss 大佬,我觉得这个 script 可以 merge 了。你觉得这个放到 repo 里面合适吗?

L-jasmine avatar Jun 20 '25 16:06 L-jasmine

@RVC-Boss 现在已经是完全体了

L-jasmine avatar Jul 01 '25 13:07 L-jasmine

可以问下这个脚本有能播放的版本么? 还是需要自己写相应的外围?

我这边m3pro本地跑大概这样的结果, 能看到生成的0-3 以及final这些. 具体还能怎么用 还望作者大佬指点

image

Bobchenyx avatar Jul 08 '25 16:07 Bobchenyx

@Bobchenyx 这个本意只是一个导出的脚本,它不带播放功能。 主要是在探索 stream 推理的可能性。 它会把推理的结果保存成文件,如果想听的话可以去点开来听。 out.wav 是合并的结果 out.raw.wav 是没有相似匹配 直接硬拼接的结果 out_1.wav 就是第一段。 out.final.wav 是不进行切割直接全推理的结果

把 test_stream 改成 export_stream 就可以导出三个 pt 文件。是 torch_script 的,可以拿到 rust/c++ 里面 run。 https://github.com/second-state/gsv_tts.git 这个项目就是怎么使用这个脚本导出的产物的实现。

如果你只需要在 python 里面 run 的话,就得自己写外围了(那些 webui 什么的)

#2467 里面有关于这个脚本的效果的讨论 和一些思路 你可以看看

L-jasmine avatar Jul 08 '25 17:07 L-jasmine