【BUG】字幕识别10-20%出现遗漏,视频里部分字幕识别不出来的问题。
这是 demucs 进行人声分离导致的 whisper 识别错误率升高的问题,这一点目前暂时没有完美的方案,如果不进行人声分离有时候会因为背景声导致 whisperX 的时间轴对齐出现严重错误。
这是 demucs 进行人声分离导致的 whisper 识别错误率升高的问题,这一点目前暂时没有完美的方案,如果不进行人声分离有时候会因为背景声导致 whisperX 的时间轴对齐出现严重错误。
我在whisper discussion看到这个 https://github.com/openai/whisper/discussions/29 不知道是不是和原生wisper使用的VAD的参数有关,下面有些解决办法,可以试一下
我在使用whisperx旧版本时候(好像是1.0,2.0版本),很少出现字幕遗漏问题。只是一些开头的单词 例如:And So OK这种开头的单词,时间轴会有问题,还有数字也会有问题。现在使用的VideoLingo也会有这些问题,翻译视频时间超过30分钟,也会很容易出错,希望可以把音频转文字和翻译功能分开。
这个错误现在发现了,是 demucs 处理音频后声音会变小,影响 whisperX 的转录过程,现在 v2.0.4 会调大音量再送入转录 代码见 c1de9c9
这个错误现在发现了,是 demucs 处理音频后声音会变小,影响 whisperX 的转录过程,现在 v2.0.4 会调大音量再送入转录 代码见 c1de9c9
谢谢试用了下,调大音量后enhanced_vocals.wav的文件比原文件vocals.wav size要小? 请问demucs之前是用什么库分离人声,我怎么感觉那个分离效果要好很多?
在step2 demucs中可以看见,具体的模型选择可以参考github的demucs官方 现在用的是最新的v4的htdemucs
这个错误现在发现了,是 demucs 处理音频后声音会变小,影响 whisperX 的转录过程,现在 v2.0.4 会调大音量再送入转录 代码见 c1de9c9
谢谢试用了下,调大音量后enhanced_vocals.wav的文件比原文件vocals.wav size要小? 请问demucs之前是用什么库分离人声,我怎么感觉那个分离效果要好很多?