sherpa-onnx
sherpa-onnx copied to clipboard
tts模型推荐
没有找到rtf在1以内且支持中英双语的模型
速度和cpu 有关系。请问你用的什么cpu?
python3 ./python-api-examples/offline-tts.py
--debug=1
--kokoro-model=./kokoro-multi-lang-v1_0/model.onnx
--kokoro-voices=./kokoro-multi-lang-v1_0/voices.bin
--kokoro-tokens=./kokoro-multi-lang-v1_0/tokens.txt
--kokoro-data-dir=./kokoro-multi-lang-v1_0/espeak-ng-data
--kokoro-lexicon=./kokoro-multi-lang-v1_0/lexicon-us-en.txt,./kokoro-multi-lang-v1_0/lexicon-zh.txt
--num-threads=2
--sid=18
--output-filename="./kokoro-18-zh-en.wav"
"中英文语音合成测试。This is generated by next generation Kaldi using Kokoro without Misaki. 你觉得中英文说的如何呢?"
使用这个用例,耗时在6-12s
我部署的是边端设备,CPU型号是12核的Arm Cortex-A78AE
你要输出 RTF.
然后提供不同 num threads 下的RTF 。
如何验证你的 cpu 是 cortex A78?
你板子上有几种 cpu?
你好,matcha_tts_zh_en_20251010中英混合模型未提供英文lexicon文件,转录时会自动过滤英文,请问是否有开源计划,这模型应该挺快的
@ee-redbull 你好! https://github.com/k2-fsa/sherpa-onnx/pull/2763 已经支持了。建议你认真看pull request 里的说明.
你好,我拉取了最新代码,根据Method 5 (For developers)重新编译安装,使用python-api示例代码加载模型进行推理,出来的音频英文部分很生硬,很难听懂,结尾部分有些字好像转错了,速度还可以,num_threads设置为4,rtf=0.103 不知道是否对齐了效果和性能,另外是否有进一步更好的模型计划 tts_20251111_152406_779c405c.wav
https://modelscope.cn/models/dengcunqin/matcha_tts_zh_en_20251010/summary
这里已经有说明, 英文效果不好。