ASRT_SpeechRecognition 音频格式不对的问题

音频格式不对的问题

Open nicholasbao opened this issue 4 years ago • 6 comments

你好，我用的是ASRT_v0.6.0的版本，想做asr转换测试我用了自己的wav文件，格式的话和您推荐的是同样的格式 file output1111.wav output1111.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz 但是在用inference的时候报了如下的错误 could not broadcast input array from shape (6758,200,1) into shape (1600,200,1) 想问问是什么原因？要怎么样才可以修正呢？谢谢

Apr 16 '20 06:04 nicholasbao

录音的时间长度太长了，一次识别限定的最长时间是16秒，请把音频文件剪辑之后再试。

Apr 16 '20 06:04 nl8590687

录音的时间长度太长了，一次识别限定的最长时间是16秒，请把音频文件剪辑之后再试。

谢谢，我的录音都是这个长度的，能否改动源码让其适配呢？在test.py里面没有看到对应的修改地方，是否要重新训练模型？刚刚接触您的代码

Apr 16 '20 06:04 nicholasbao

模型可以不用重新训练，但是要在SpeechModel类里面改动那个时间维度的长度，1600是16秒，每秒是100，然后对应的reshape那里也要根据修改后的时长改。

Apr 16 '20 06:04 nl8590687

模型可以不用重新训练，但是要在SpeechModel类里面改动那个时间维度的长度，1600是16秒，每秒是100，然后对应的reshape那里也要根据修改后的时长改。

您好非常感谢您的工作请问您有推荐的录音软件吗我用系统自带的软件默认sample rate是44.1k resample为16k后非常伤音质

Aug 12 '20 03:08 KawhiZhao

您好非常感谢您的工作请问您有推荐的录音软件吗我用系统自带的软件默认sample rate是44.1k resample为16k后非常伤音质用我的客户端软件就可以用电脑录音并直接识别，默认录音音质就是识别所用的音质配置，不过需要先运行asrserver服务端，然后配置好URL。另外就是不支持通过外设转录的音质，因为音质差，识别效果不好，只能是人声直接录制的声音。

Aug 12 '20 03:08 nl8590687

您好非常感谢您的工作请问您有推荐的录音软件吗我用系统自带的软件默认sample rate是44.1k resample为16k后非常伤音质用我的客户端软件就可以用电脑录音并直接识别，默认录音音质就是识别所用的音质配置，不过需要先运行asrserver服务端，然后配置好URL。另外就是不支持通过外设转录的音质，因为音质差，识别效果不好，只能是人声直接录制的声音。

您好，感谢您的回复！还想请教您，能否分享一下windows桌面应用的录音部分的代码呢 python3通用录音程序好像有些问题

Aug 14 '20 03:08 KawhiZhao

ASRT_SpeechRecognition ASRT_SpeechRecognition copied to clipboard

音频格式不对的问题

ASRT_SpeechRecognition
ASRT_SpeechRecognition copied to clipboard