XXXXRT666

Results 297 comments of XXXXRT666

> > 而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache` > > 感谢补充,我看到是prompt_sematic设置的时候,引用到了vits模型。prompt模型存储的是参考语音的sematic缓存,代码中仅缓存了上一次参考音的,切换有0.8s的耗时,补充下:我的配置是4090。 想了解下这个580it/s是怎么跑出来的,民用4090或者A10这种应该跑不到这么高吧... 我压测过接口,生成15字大概在1400ms,如果本文数量多,增大batch_size确实可以并行减少耗时,但我场景是任意标点切分,这是基于上游LLM的流式输出切分的,如果能像fishspeech达到800ms,那么我觉得就很棒了。目前还没摸索到方法,如果有可以分享给我么? Issue里有,别人测出来的

> > 而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache` > > 感谢补充,我看到是prompt_sematic设置的时候,引用到了vits模型。prompt模型存储的是参考语音的sematic缓存,代码中仅缓存了上一次参考音的,切换有0.8s的耗时,补充下:我的配置是4090。 想了解下这个580it/s是怎么跑出来的,民用4090或者A10这种应该跑不到这么高吧... 我压测过接口,生成15字大概在1400ms,如果本文数量多,增大batch_size确实可以并行减少耗时,但我场景是任意标点切分,这是基于上游LLM的流式输出切分的,如果能像fishspeech达到800ms,那么我觉得就很棒了。目前还没摸索到方法,如果有可以分享给我么? 自行尝试compile或者别的方式,然后用linux,CPU也挺重要

音色融合,跟参考音频长度无关,多余参考不经过AR

> > ```python > > import requests > > import urllib.parse > > > > audio_directory = "./" > > > > def generate_audio(response, name, output_name): > > global audio_directory...

> > > > ```python > > > > import requests > > > > import urllib.parse > > > > > > > > audio_directory = "./" > >...