FunASR 使用speaker diarization MISS错误率很高，请问是vad模块效果不好吗？还有结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？

使用speaker diarization MISS错误率很高，请问是vad模块效果不好吗？还有结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？

Open Coconut059 opened this issue 1 year ago • 1 comments

trafficstars

Notice: In order to resolve issues more efficiently, please raise issue following the template. （注意：为了更加高效率解决您遇到的问题，请按照模板提问，补充细节）

Apr 11 '24 10:04 Coconut059

在MISP2022数据集上使用speaker diarization发现仅使用音频MISS约为23%，DER34%;使用音频加视频DER大约43%，请问vad模块可以微调吗？以及结合视频的clustering可以微调嘛

Apr 11 '24 10:04 Coconut059