Zhou Hao
Zhou Hao
Windows下目前只能用API模式,运行方法: ```bash python GPT_SoVITS/inference_stream.py --api # 访问 http://localhost:5000?text= ``` Windows下流式推理录屏(Chrome不会自动播放,需要等推理完2句后点下播放): https://github.com/RVC-Boss/GPT-SoVITS/assets/302680/b9da9190-11c5-478a-8243-4660c39da48e 补充:Gradio的音频控件,Windows下设置 `autoplay=False` 就可以类似视频里的流式播放(不然Chrome下会报 `The AudioContext was not allowed to start. It must be resumed (or created) after a user...
> 这个应该是切分了句子之后,按句子级别进行输出的流式? 对,默认用的是按标点符号切割。 新的`推理加速`分支,加入了分片的yield,这里等flash attention等改动合入后,我再提一版(避免冲突)。如果测试可以先用这个分支的代码:https://github.com/upbit/GPT-SoVITS/tree/streaming > 如果不是MacOS推理,Windows目前会因为gradio的Audio请求一直挂起(直到推理结束),因此暂时只能在API模式下实现视频里流式播放效果。
> 大佬您好,参考大佬给出的方式实现了流式处理,但是我这边发现一个问题,流式输出后会在每一段的语音最后有个短暂的类似于的爆音的杂音,不知道大佬有没有遇到过,有一些排查的思路吗?感谢感谢 没有遇到过类似情况,是最新分支吗?我晚点测试看看 记得代码里每个batch,[推理音频后会附加一个zero_wav用于停顿](https://github.com/upbit/GPT-SoVITS/blob/streaming/GPT_SoVITS/TTS_infer_pack/TTS.py#L611),你可以去掉试试: `audio_fragment = torch.cat([audio_fragment, zero_wav], dim=0)`
> > 长文本案例下面example部分有,另外Windows下Chrome推理开始后,可能需要点播放才能开始听结果 > > 大佬您好,参考大佬给出的方式实现了流式处理,但是我这边发现一个问题,流式输出后会在每一段的语音最后有个短暂的类似于的爆音的杂音,不知道大佬有没有遇到过,有一些排查的思路吗?感谢感谢 merge了 `fast_inference_` 分支的一些新变更,你可以pull下 streaming 分支的最新代码试试(用Windows验证了下没有遇到爆音问题)
没有找到对应的资料,后面是切换DX11做的。。
嗯,App-API是针对手机设计的。如果你需要抓取全部内容,可能考虑网页端用Webdriver获取更容易,对应接口是: `GET /users/{user_id}/bookmarks/artworks?p={页码}`
Thank you for submitting the MR, and point out the issue in the `/v1/illust/comments`. I will review it as soon as possible and attempt to fix the problems.
可以帮忙提交个MR,我看看修改内容。 另外,注释方面如果能用GPT/文心一言等大模型,翻译个英文版放着对比更好
> 可以试试,但你的自动测试的Python版本得调整到至少3.8(你的pyproject.toml上也写的是3.8版本),因为从这个版本开始才会支持TypedDict。另外,我这里确实可以考虑添加一下文档注释,方便查看具体功能 嗯,往上调整吧。目前大多应该都在3.9或者更新版本了
> I ... had never retrieved the refresh tokens... The token I'm using is a very old one, saved before #158 happened. 😛 > > I will probably go with...