PaddleSpeech asr 对于ctc alignment.py 的一些疑问和问题

asr 对于ctc alignment.py 的一些疑问和问题

Open wangdabee opened this issue 2 years ago • 1 comments

自己做数据集，重新训练conformer，并实现音频和识别出的文本对齐功能。
问题描述：asr中，实现音频和文本对齐功能的alignment.py  源码是对整个测试集（batch_size强制为1）进行识别对齐（集成到了Tester中），这一过程需要加载测试集的数据（即align dataloader）和vocab.txt ，vocab.txt （数据集中字符的集合）和dataload （测试集是manifest.test）需要测试数据的wav音频文件和label（标注的txt文本） ，有两个疑问：

1.是不是实现音频和识别出的文本对齐功能，需要标注好测试音频然后按照data.sh 处理数据，生成manifest文件和vocab文件，之后利用alignment.py实现功能？ 2.想要实现像测试单个音频的test_wave.py一样，实现单个音频的识别与对齐功能，除了1说的方法之外，还有没有较为简便的方法（即就像test_wave.py一样，只需要vocab.txt，输入一个音频，就可以识别成文本）？谢谢！

Aug 10 '22 07:08 wangdabee

1.是不是实现音频和识别出的文本对齐功能，需要标注好测试音频然后按照data.sh 处理数据，生成manifest文件和vocab文件，之后利用alignment.py实现功能？

按照训练的流程使用即可，流程是一样的。

2.想要实现像测试单个音频的test_wave.py一样，实现单个音频的识别与对齐功能，除了1说的方法之外，还有没有较为简便的方法（即就像test_wave.py一样，只需要vocab.txt，输入一个音频，就可以识别成文本）？

一是参看代码流程抽出即可。而是参照训练流程，制作一条wav的manifest，按照1.问题的流程使用即可。

Aug 10 '22 12:08 zh794390558

PaddleSpeech PaddleSpeech copied to clipboard

asr 对于ctc alignment.py 的一些疑问和问题

PaddleSpeech
PaddleSpeech copied to clipboard