speech_recognition 测试过程异常

大佬，我测试用的thchs30中的test，但是运行时并没有遍历一遍test中的语音 测试的整个过程如下

C:\Users\zxchong\Desktop\speech_recognition-master> python test.py C:\Users\zxchong\AppData\Local\Programs\Python\Python36\lib\site-packages\h5py_init_.py:36: FutureWarning: Conversion of the second argument of issubdtype from float to np.floating is deprecated. In future, it will be treated as np.float64 == np.dtype(float).type. from ._conv import register_converters as _register_converters F:\xunlei\data\data_thchs30\test\D11_750.wav 东北军的一些爱国将士马占山李杜唐聚伍苏炳艾邓铁梅等也奋起抗战 wav: 2132 label 2132 字表大小: 1787 ckpt: C:\Users\zxchong\Desktop\speech_recognition-master\voice\model\speech.cpkt-101 101

读入语音文件: F:\xunlei\data\data_thchs30\test\D11_773.wav 开始识别语音数据...... 语音原始文本: 台湾婴幼儿营养专家还与厦门市同行就婴幼儿的生长发育进行专题探讨识别出来的文本: 台湾婴幼儿营养专家还厦门市同行就婴幼儿的生长发育进行专题探讨读入语音文件: F:\xunlei\data\data_thchs30\test\D11_774.wav 开始识别语音数据...... 语音原始文本: 像张王村八十年代四百户拥有耕牛七百多头而今五百五十多农户仅拥有耕牛十一头识别出来的文本: 像张王村八十年代四百户拥有耕牛七百多头今五百五十多农户仅拥有耕牛十一头读入语音文件: F:\xunlei\data\data_thchs30\test\D11_775.wav 开始识别语音数据...... 语音原始文本: 看羊狗跑前跑后一只惊飞的山雀惹得它汪汪汪咬几声嗡嗡嗡的在山间回荡识别出来的文本: 看羊狗跑前跑后一只惊飞的山雀惹得汪汪汪咬几声省嗡嗡嗡的在山间回荡读入语音文件: F:\xunlei\data\data_thchs30\test\D11_776.wav 开始识别语音数据...... 语音原始文本: 承运人有权要求托运人填写航空货运单托运人有权要求承运人接受该航空货运单识别出来的文本: 承运人有权要求托运人填写航空货运单托运人有权要求承运人接受该航空货运单读入语音文件: F:\xunlei\data\data_thchs30\test\D11_779.wav 开始识别语音数据...... 语音原始文本: 当然他们不像鳄鱼那样吞下石块当做压舱石而是磨成粉以后才服用识别出来的文本: 当他不鳄鱼鳄样那吞下石块做压石到多声草用读入语音文件: F:\xunlei\data\data_thchs30\test\D11_780.wav 开始识别语音数据...... 语音原始文本: 刀光枪影白骨如麻我仿佛听到五十年前三十万冤魂的呐喊痛贯心肝识别出来的文本: 刀光枪影白骨如麻我仿佛听到五十年前三如万冤魂呐喊痛贯心肝读入语音文件: F:\xunlei\data\data_thchs30\test\D11_781.wav 开始识别语音数据...... 语音原始文本: 不仅要宣传少生还要宣传晚婚晚育优生优育宣传生男生女都一样识别出来的文本: 不仅要宣传少生还要宣传晚婚晚育优生优育宣传生男生女都一样读入语音文件: F:\xunlei\data\data_thchs30\test\D11_782.wav 开始识别语音数据...... 语音原始文本: 七我国培育出首株抗病毒转基因小麦为小麦抗病育种奠定了坚实基础识别出来的文本: 七我国培育出首株抗病毒转基因小麦为为小麦抗病育种奠定了坚实基础读入语音文件: F:\xunlei\data\data_thchs30\test\D11_783.wav 开始识别语音数据...... 语音原始文本: 天空一些云忙走月亮陷进云围时云和烟样和煤山样快要燃烧似地识别出来的文本: 天空一些云忙走月亮陷进云围时云和烟样和煤山样快要燃烧似地读入语音文件: F:\xunlei\data\data_thchs30\test\D11_785.wav 开始识别语音数据...... 语音原始文本: 北京丰台区农民自己花钱筹办万佛延寿寺迎春庙会吸引了区内六十支秧歌队参赛识别出来的文本: 北京丰台区农民自己花钱筹办万佛延寿寺迎春庙会吸引了区内六十支秧歌队参赛 PS C:\Users\zxchong\Desktop\speech_recognition-master>

大佬知道这是什么问题吗？ 请大佬帮忙看一眼，，谢谢了

Jun 06 '18 14:06 provenpeng

大佬能帮小弟看看嘛

Jun 07 '18 02:06 provenpeng

你是要把所有的test语音都测试一下？

Jun 07 '18 05:06 xxbb1234021

你好，我测试运行也是这样的。现在想加入一个新的 wav文件测试，不知道该怎么操作？求教

Jun 07 '18 08:06 thesunnyman

你们运行的test的时候，不会报tensorflow.python.framework.errors_impl.InvalidArgumentError: Assign requires shapes of both tensors to match. lhs shape= [512,2667] rhs shape= [512,1788] [[Node: save/Assign_41 = Assign[T=DT_FLOAT, _class=["loc:@h6"], use_locking=true, validate_shape=true, _device="/job:localhost/replica:0/task:0/device:CPU:0"](h6/Adam_1, save/RestoreV2:41)]] 这种错误吗？

Jun 07 '18 08:06 feifaxiaoming

@feifaxiaoming https://blog.csdn.net/dou3516/article/details/77836459

Jun 07 '18 08:06 thesunnyman

@thesunnyman 我运行训练的时候都没有问题，就是测试的时候出现的问题，报这个错，我用的也是GPU训练的，我有GPU的机器

Jun 07 '18 08:06 feifaxiaoming

@thesunnyman 我是在运行test.py的时候报错的，就是训练好之后，测试的时候报错

Jun 07 '18 08:06 feifaxiaoming

这个不对啊，就只能用test的文件测试，换成自己的就不行了，我之前就是一直用的自己的就不行，如果换成测试的那个就可以了，也就是说用哪个训练就得用哪个测试，这样意义不是很大啊。

Jun 07 '18 09:06 feifaxiaoming

这只是一个代码例子，展示一个语音识别的流程，你可以根据你的需求修改，或者换成你们自己的数据测试。如果有改进，希望也能共享出来一起学习

Jun 07 '18 09:06 xxbb1234021

@xxbb1234021 不是，我的意思是说测试的时候调用这个： wav_files = ['D:\音频相似度文档\声音相关的模型\Chinese-speech-to-text-master\A11_1.wav','D:\音频相似度文档\声音相关的模型\Chinese-speech-to-text-master\A11_2.wav'] txt_labels = ['北京丰台区农民自己花钱筹办万佛延寿寺迎春庙会吸引了区内六十支秧歌队参赛','那劲一个任命'] words_size, words, word_num_map = utils.create_dict(txt_labels) print(words_size, words, word_num_map) bi_rnn = BiRNN(wav_files, txt_labels, words_size, words, word_num_map) bi_rnn.build_target_wav_file_test(wav_files, txt_labels)

就是你test.py下面注释掉的那段代码，就不行了，就会出问题了，用测试文件群测试是没有问题的，我想问的是测试单个文件的怎么弄呢？

Jun 07 '18 09:06 feifaxiaoming

我知道这段代码，但是这段代码跑起来就报错了

Jun 07 '18 10:06 feifaxiaoming

@feifaxiaoming debug跟踪下代码，是哪行出的问题

Jun 07 '18 10:06 xxbb1234021

    with tf.name_scope('layer6'):
        # 全连接层用于softmax分类
        b6 = self.variable_on_device('b6', n_character, tf.random_normal_initializer(stddev=b_stddev))
        h6 = self.variable_on_device('h6', [n_hidden_5, n_character], tf.random_normal_initializer(stddev=h_stddev))
        layer_6 = tf.add(tf.matmul(layer_5, h6), b6)

这一行，n_character是根据字数的多少来确定的，训练的时候用test的训练集，给出的是1700多个字，然后这块就记录进模型的张量中了，然后在测试的时候，换成自己单独的音频文件，这块字数匹配不上，就报错了，报在： if ckpt != None: self.saver.restore(self.sess, ckpt) ind = ckpt.rfind("-") self.startepo = int(ckpt[ind + 1:]) print(self.startepo) self.saver.restore(self.sess, ckpt)这句话调用的张量跟上面的生成的不符合，所以就过不去了。

Jun 12 '18 02:06 feifaxiaoming

你跑代码的时候大概跑到多少epoch，结果会接近准确？我我跑的速度很慢，而且gpu跑2天输出的字还是奇奇怪怪的 @xxbb1234021 @provenpeng

Jun 14 '18 08:06 crazygirl1992

100步左右就可以了，主要跑完了，不能单独输入图片去测试

Jun 14 '18 08:06 feifaxiaoming

哦哦

Jun 14 '18 11:06 crazygirl1992

@feifaxiaoming 我也遇到了同样的问题，请问解决了吗？只能跑默认的test，自定义路径或文件都会报错

Jun 20 '18 02:06 ZeR0ll

我也遇到了这种问题，请问您找到解决方法了吗 @feifaxiaoming @ZeR0ll

Jun 21 '18 02:06 sunshinepython

这个更像是一个demo,作者似乎也不打算更新，我尝试了一下发现作者的测试集是在训练集上做的，对自定义的语音识别效果很差。所以这个拿来学习一下就好了。

Jun 29 '18 15:06 ZeR0ll

我也遇到了同样的问题，测试单个文件会报错，请问这个怎么解决？@feifaxiaoming @xxbb1234021

Nov 02 '18 06:11 JingangLang

@feifaxiaoming 你的cpu成功了？

Jan 30 '19 07:01 sunjunlishi

100步左右就可以了，主要跑完了，不能单独输入图片去测试

感觉６０多次后就收敛的比较好了.

Apr 29 '19 08:04 livyer

你们运行的test的时候，不会报tensorflow.python.framework.errors_impl.InvalidArgumentError: Assign requires shapes of both tensors to match. lhs shape= [512,2667] rhs shape= [512,1788] [[Node: save/Assign_41 = Assign[T=DT_FLOAT, _class=["loc:@H6"], use_locking=true, validate_shape=true, _device="/job:localhost/replica:0/task:0/device:CPU:0"](h6/Adam_1, save/RestoreV2:41)]] 这种错误吗？

就是报这个错.　还没找到办法解决,　

Apr 29 '19 08:04 livyer

运行环境：cpu 、采用训练好的模型测试单个文件：

#coding=utf-8

import os

import utils from config import Config from model import BiRNN

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

conf = Config()

wav_files, text_labels = utils.get_wavs_lables()

words_size, words, word_num_map = utils.create_dict(text_labels)

#bi_rnn = BiRNN(wav_files, text_labels, words_size, words, word_num_map) #bi_rnn.build_test()

wav_files = ['F:/Python_code/语音识别/speech_recognition-中文/data/test/D4_750.wav'] txt_labels = ['东北军的一些爱国将士马占山李杜唐聚伍炳艾邓铁梅等也奋起抗战'] bi_rnn = BiRNN(wav_files, text_labels, words_size, words, word_num_map) bi_rnn.build_target_wav_file_test(wav_files, txt_labels)

结果： F:\programme\Anaconda3.5\python.exe F:/Python_code/语音识别/speech_recognition-中文/test.py F:\programme\Anaconda3.5\lib\site-packages\h5py_init_.py:36: FutureWarning: Conversion of the second argument of issubdtype from float to np.floating is deprecated. In future, it will be treated as np.float64 == np.dtype(float).type. from ._conv import register_converters as _register_converters ./data/test/\D11_750.wav 东北军的一些爱国将士马占山李杜唐聚伍苏炳艾邓铁梅等也奋起抗战 wav: 2132 label 2132 字表大小: 1787 WARNING:tensorflow:From F:\Python_code\语音识别\speech_recognition-中文\model.py:101: BasicLSTMCell.init (from tensorflow.python.ops.rnn_cell_impl) is deprecated and will be removed in a future version. Instructions for updating: This class is deprecated, please use tf.nn.rnn_cell.LSTMCell, which supports all the feature this cell currently has. Please replace the existing code with tf.nn.rnn_cell.LSTMCell(name='basic_lstm_cell'). ckpt: F:/Python_code/语音识别/speech_recognition-中文/data/save_speech/speech.cpkt-101 101

读入语音文件: F:/Python_code/语音识别/speech_recognition-中文/data/test/D4_750.wav 开始识别语音数据...... 语音原始文本: 东北军的一些爱国将士马占山李杜唐聚伍炳艾邓铁梅等也奋起抗战识别出来的文本: 东北军的一些爱国将士马占山李杜唐聚伍炳艾邓铁梅等也奋起抗战

进程已结束,退出代码0

May 18 '19 13:05 tiankong-hut

speech_recognition speech_recognition copied to clipboard

测试过程异常

speech_recognition
speech_recognition copied to clipboard