GigaAM
GigaAM copied to clipboard
strangely, many empty transcriptions on mozilla common voice
Во вложении пример файла, на который ctc-инференс стабильно возвращает пустую транскрипцию, проверено на двух разных машинах с разными видеокартами.
common_voice_ru_35728771.zip Это из набора mozilla common voice (cv-corpus-12.0-delta-2022-12-07) и на нем почти все аудио дают пустую транскрипцию. Это очень странно, потому что на других наборах модель транскрибирует стабильно.
Формат файлов, вроде, обычный
ffmpeg -i common_voice_ru_35728771.wav
Guessed Channel Layout for Input Stream #0.0 : mono
Input #0, wav, from 'common_voice_ru_35728771.wav':
Metadata:
encoder : Lavf58.76.100
Duration: 00:00:05.33, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, mono, s16, 256 kb/s