ASRT_SpeechRecognition icon indicating copy to clipboard operation
ASRT_SpeechRecognition copied to clipboard

音频格式不对的问题

Open nicholasbao opened this issue 4 years ago • 6 comments

你好,我用的是ASRT_v0.6.0的版本,想做asr转换测试 我用了自己的wav文件,格式的话和您推荐的是同样的格式 file output1111.wav output1111.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz 但是在用inference的时候报了如下的错误 could not broadcast input array from shape (6758,200,1) into shape (1600,200,1) 想问问是什么原因?要怎么样才可以修正呢?谢谢

nicholasbao avatar Apr 16 '20 06:04 nicholasbao

录音的时间长度太长了,一次识别限定的最长时间是16秒,请把音频文件剪辑之后再试。

nl8590687 avatar Apr 16 '20 06:04 nl8590687

录音的时间长度太长了,一次识别限定的最长时间是16秒,请把音频文件剪辑之后再试。

谢谢,我的录音都是这个长度的,能否改动源码让其适配呢?在test.py里面没有看到对应的修改地方,是否要重新训练模型?刚刚接触您的代码

nicholasbao avatar Apr 16 '20 06:04 nicholasbao

模型可以不用重新训练,但是要在SpeechModel类里面改动那个时间维度的长度,1600是16秒,每秒是100,然后对应的reshape那里也要根据修改后的时长改。

nl8590687 avatar Apr 16 '20 06:04 nl8590687

模型可以不用重新训练,但是要在SpeechModel类里面改动那个时间维度的长度,1600是16秒,每秒是100,然后对应的reshape那里也要根据修改后的时长改。

您好 非常感谢您的工作 请问您有推荐的录音软件吗 我用系统自带的软件默认sample rate是44.1k resample为16k后非常伤音质

KawhiZhao avatar Aug 12 '20 03:08 KawhiZhao

您好 非常感谢您的工作 请问您有推荐的录音软件吗 我用系统自带的软件默认sample rate是44.1k resample为16k后非常伤音质 用我的客户端软件就可以用电脑录音并直接识别,默认录音音质就是识别所用的音质配置,不过需要先运行asrserver服务端,然后配置好URL。另外就是不支持通过外设转录的音质,因为音质差,识别效果不好,只能是人声直接录制的声音。

nl8590687 avatar Aug 12 '20 03:08 nl8590687

您好 非常感谢您的工作 请问您有推荐的录音软件吗 我用系统自带的软件默认sample rate是44.1k resample为16k后非常伤音质 用我的客户端软件就可以用电脑录音并直接识别,默认录音音质就是识别所用的音质配置,不过需要先运行asrserver服务端,然后配置好URL。另外就是不支持通过外设转录的音质,因为音质差,识别效果不好,只能是人声直接录制的声音。

您好,感谢您的回复! 还想请教您,能否分享一下windows桌面应用的录音部分的代码呢 python3通用录音程序好像有些问题

KawhiZhao avatar Aug 14 '20 03:08 KawhiZhao