WenetSpeech
WenetSpeech copied to clipboard
标志数据错误问题
你好,我对wenetspeech数据抽检了一小部分音频和标注文件,发现标注有很多是错误的: Y0000000768_10jLYDtPEpg_S00000.wav 原:中国工商银行在国账市场上 正:中国工商银行在国际市场上 Y0000000768_10jLYDtPEpg_S00004.wav 原:我们整个的银行体系已经从技术角皮续产了 正:我们整个的银行体系从技术角度已经续产了
备注:以上音频已经根据切分好的以sid命名的音频文件
这种情况咱们处理,人工筛选成本有点太高了