PaddleSpeech
PaddleSpeech copied to clipboard
asr 对于ctc alignment.py 的一些疑问和问题
自己做数据集,重新训练conformer,并实现音频和识别出的文本对齐功能。
问题描述:asr中,实现音频和文本对齐功能的alignment.py 源码是对整个测试集(batch_size强制为1)进行识别对齐(集成到了Tester中),这一过程需要加载测试集的数据(即align dataloader)和vocab.txt ,vocab.txt (数据集中字符的集合)和dataload (测试集是manifest.test)需要测试数据的wav音频文件和label(标注的txt文本) ,有两个疑问:
1.是不是实现音频和识别出的文本对齐功能,需要标注好测试音频 然后按照data.sh 处理数据,生成manifest文件和vocab文件,之后利用alignment.py实现功能? 2.想要实现像测试单个音频的test_wave.py一样,实现单个音频的识别与对齐功能,除了1说的方法之外,还有没有较为简便的方法(即就像test_wave.py一样,只需要vocab.txt,输入一个音频,就可以识别成文本)? 谢谢!
1.是不是实现音频和识别出的文本对齐功能,需要标注好测试音频 然后按照data.sh 处理数据,生成manifest文件和vocab文件,之后利用alignment.py实现功能?
按照训练的流程使用即可, 流程是一样的。
2.想要实现像测试单个音频的test_wave.py一样,实现单个音频的识别与对齐功能,除了1说的方法之外,还有没有较为简便的方法(即就像test_wave.py一样,只需要vocab.txt,输入一个音频,就可以识别成文本)?
一是参看代码流程抽出即可。而是参照训练流程,制作一条wav的manifest,按照1.问题的流程使用即可。