v3ucn
v3ucn
对比过,whisper的medium效果不如FunAsr,但是large以上的模型成本又太高,显存必须8g以上,而且速度较慢,不亲民,modelscope的英文日文效果还可以,优势是效率高,速度快,vad和punc模型可以选择性预加载,不影响日英转写。
whisper支持中文打标,通过prompt引导即可
Because the default is not the read tools/asr/models/ directory, you need to modify the code fasterwhisper_asr.py: ``` model = WhisperModel (model_path, device=device, compute_type=precision,download_root= "./tools/asr/models", local_files_only=False) ```
You can test the faster_whisper problem in Japanese, because it will switch back to FunAsr by default in Chinese.
https://github.com/RVC-Boss/GPT-SoVITS/issues/860
好的,再改改
我那条视频没有声明代码来自官方PR? 你自己把别人的代码做进自己整合包,没有任何声明,然后阴阳别人,骂人,证据如下:  
> > 我那条视频没有声明代码来自官方PR? 你自己把别人的代码做进自己整合包,没有任何声明,然后阴阳别人,骂人,证据如下: > > 可能还是看法不同吧,我尊重您的看法,但是我认为“妈的”更多是一个情绪词而非骂人;并且之前那条github评论也只是说“请不要在合并到主支前把它做进整合包后抹去作者信息” > > 对于所谓的别人的代码做进自己的整合包,我在一开始就说明GSVI基于fast_inference_分支,但是并未提到CJ大佬是我的疏忽; > > 我已经重新在GSVI这个fork中声明,并且与[ChasonJiang](https://github.com/ChasonJiang)大佬进行了道歉 > > 但是还请您不要超时空出警:fast_inference_分支3.11才被合并进了https://github.com/X-T-E-R/GPT-SoVITS-Inference ,但是我发的最近的一期分享推理包视频还是3月4日(详见[https://space.bilibili.com/66633770)](https://space.bilibili.com/66633770%EF%BC%89) > > It might just be a difference in perspective, and I respect...
> > 我每条视频简介都声明了来自官方pr,视频开头也声明了pr作者,只要有作者联系我声明版权,我会立刻删除相关视频和整合包内的代码,我的整合包里之前没有你的任何代码,也不可能出现你的任何代码,是你先阴阳别人,你自己拷贝别人代码进自己的整合包,没有任何声明,然后阴阳别人,你觉得你这么干挺友好?挺合乎逻辑? > > 您好?我并不清楚自己是否一开始就”先阴阳别人“,但就我来说,一切的一切开始于下面这条github评论 > > > 额外的一条对于喜欢分享自己整合包的up主/博主:请不要在合并到主支前把它做进整合包后抹去作者信息;虽然我不拦你 > > 您想要合并当然可以,不要抹去作者信息即可 > > 对于您10点多突然加群,然后开始说我没有声明,我起来也是一激灵;因此后来认真听取您的意见,去和CJ大佬道歉并且重新著名在GSVI的readme中 > > 我觉得您可能觉得冒犯的是,我在不知道与我私聊的就是您刘悦的情况下,在您的私聊框中说出了”我指的主要是刘悦“这句话,我为该句话对您造成的伤害进行公开道歉:对不起! > > 另外我保留了https://www.yuque.com/xter/zibxlp/swi1aw80nrlh270p 聊天记录,如果您有任何想补充和我说;该份聊天记录仅作事实记录,我对可能对您造成的冒犯深感抱歉。 你指控我没有任何问题,我做的不对的地方,直接说就行了,没有任何必要阴阳怪气,在技术交流分享平台上,你发的那句话很明显就是引战,明眼人都能看出来,也没必要解释。
可以的,在推理返回之前,使用soundfile更改采样率 pip install pysoundfile ``` import soundfile as sf # 读取原始音频文件 data, samplerate = sf.read('原始音频文件.wav') # 将音频文件的采样率更改为新的采样率(例如44100) sf.write("新音频文件.wav", data, 44100, subtype='PCM_16') ```