FunASR
FunASR copied to clipboard
使用角色识别模型,得到的结果和实际说话人相差太大,有什么提升准确率的参数吗?
- OS (e.g., Linux): windows
- FunASR Version (e.g., 1.0.0): 官方仓库拉下来的最新代码
- ModelScope Version (e.g., 1.11.0): 官方仓库拉下来的最新代码
- PyTorch Version (e.g., 2.0.0): 2.2.2
- How you installed funasr (
pip, source): source - Python version: 3.9.5
- GPU (e.g., V100M32):使用CPU
- Any other relevant information: 参考文档:https://www.modelscope.cn/models/iic/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary
调用方法:
model = AutoModel(model="paraformer-zh", model_revision="v2.0.4",
vad_model="fsmn-vad", vad_model_revision="v2.0.4",
punc_model="ct-punc-c", punc_model_revision="v2.0.4",
# spk_model="cam++", spk_model_revision="v2.0.2",
)
res = model.generate(input=f"1.wav")
在这个录音里是一男一女两个人对话,但是识别出来的结果基本上都是错的,男女声完全没有分开。而且只有两个人说话的录音,却有三个不同的spk。(实际上不单单这个录音,尝试了很多个录音,基本上没有准确的,只是因为这个录音刚好是一男一女,比较典型)
所以我的问题是,有什么办法可以提升角色识别的准确率吗?
另:昨天有一位大佬提示说他改了一个thre的参数,经过我跟踪代码,在cluster_backend.py这个类里面的第144行找到了一个merge_thr的参数,猜测可能是它。然后调整了这个参数的值,事实证明它对结果 是有影响的,但是仍然未提高准确率。 Uploading 1.zip…
请问说话人分离的最后解决了吗
同,效果不好。
spk_model="cam++"模型工作了么?