James
James
 导出后4个onnx模型,如何用它们来推理?
可以把多个说话人训练到一个模型中吗?然后用参考音频来区分
> 您能给一个测试脚本吗,这样统计的性能数据可以尽可能和你那边一致。 我这边没有gpu设备,cpu是i5的也比较老的,实时推理有点慢,但是可接受范围,合成“你好呀,我们是一群追逐梦想的人。”15个字大概需要6秒,输出的音频只有两三秒,显然达不到实时性。 您的推理速度比我的速度快很多(我这里16个字耗时60s+),我的cpu是12核i7-8700K CPU @ 3.70GHz,使用的fast_interence_分支python webui.py,已经勾选了并行。请问您是怎么做的呢?
> 建议先到网页版本试一下断句功能看看断的文本是怎么样的 感谢您的回复!我这里使用的是fast_interence_分支,`python webui.py`启动,推理界面参数使用的均为默认的,参考音频是16字的约3s的。断句的位置我发现与符号“,”并没有关系。即便把“,”去掉也会出现“林”字后面断开(持续约0.0x秒音频强度非常小,趋于0)。尝试推理一些“5字内的短句子”出现这种断句错误概率非常高。  我打算在音频生成完成之后,检测强度小于某个阈值(例如50dB)的音频重新生成。
多生成几次就出现了,在fast_interence_分支,大概6次会出现一次这种情况。在main分支10几次会出现一次,要仔细听才能识别出来。 这个输入只有“董林忠同学”5个字,理论上不必使用文本切分工具吧,文本切分工具主要是针对长句子的。 当然这个也许和训练数据不同有关系?也许和参考音频有关系?这个不得而知
c++ project ? Do you rewrite the function of "def callback(indata, outdata, frames, buftime, status)" using c++ ?
> > ``` > > 功能的实现原理是,在原本框架中对实时流进行vad时的结果进行时间转换,得到毫秒级别的句子相对于实时音频流开始时间的开始和结束时间,通过本身就支持的vad模型替换主模型的时间戳返回,且之后不再受主模型是否支持时间戳功能的限制。 > > > > 目前FunASR支持句子级别时间戳是指当模型本身支持句子级别时间戳时才会有相关返回,但是当模型本身并不支持时,就没有相关内容。例如,我现在使用的iic/SenseVoiceSmall-onnx主模型进行实时识别时,原本返回并没有时间戳,我自己修改完代码后,websocket返回时就带上了vad模型对实时音频流vad的时间内容。 > > ``` > > > > > > > > > > > > > > > >...
请问怎么避免 短文本 生成了参考音频的情况呢?在webui中不容易发生,api里出现概率很高