XXXXRT666
XXXXRT666
而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache`
> 如果我要多卡的话,需要怎么修改api_2.py 直接多开几个,然后自己做一下负载均衡
> > 而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache` > > 感谢补充,我看到是prompt_sematic设置的时候,引用到了vits模型。prompt模型存储的是参考语音的sematic缓存,代码中仅缓存了上一次参考音的,切换有0.8s的耗时,补充下:我的配置是4090。 想了解下这个580it/s是怎么跑出来的,民用4090或者A10这种应该跑不到这么高吧... 我压测过接口,生成15字大概在1400ms,如果本文数量多,增大batch_size确实可以并行减少耗时,但我场景是任意标点切分,这是基于上游LLM的流式输出切分的,如果能像fishspeech达到800ms,那么我觉得就很棒了。目前还没摸索到方法,如果有可以分享给我么? Issue里有,别人测出来的
> > 而且要是没记错的话`prompt_cache`存的东西和模型无关,切换模型不会影响`prompt_cache` > > 感谢补充,我看到是prompt_sematic设置的时候,引用到了vits模型。prompt模型存储的是参考语音的sematic缓存,代码中仅缓存了上一次参考音的,切换有0.8s的耗时,补充下:我的配置是4090。 想了解下这个580it/s是怎么跑出来的,民用4090或者A10这种应该跑不到这么高吧... 我压测过接口,生成15字大概在1400ms,如果本文数量多,增大batch_size确实可以并行减少耗时,但我场景是任意标点切分,这是基于上游LLM的流式输出切分的,如果能像fishspeech达到800ms,那么我觉得就很棒了。目前还没摸索到方法,如果有可以分享给我么? 自行尝试compile或者别的方式,然后用linux,CPU也挺重要
随机种子随机的是随机数。参考影响情绪,标点影响停顿
音色融合,跟参考音频长度无关,多余参考不经过AR
> > ```python > > import requests > > import urllib.parse > > > > audio_directory = "./" > > > > def generate_audio(response, name, output_name): > > global audio_directory...
> > > > ```python > > > > import requests > > > > import urllib.parse > > > > > > > > audio_directory = "./" > >...
加速后5090在150ms左右