speech_recognition icon indicating copy to clipboard operation
speech_recognition copied to clipboard

按照作者提供的模型预测结果问题

Open pergrand opened this issue 6 years ago • 12 comments

读入语音文件: /opt/wav/test/D13/D13_992.wav 开始识别语音数据...... 语音原始文本: 山东省 烟台 奥尔 呼 斯 药业 有限公司 近日 研制 成功 外用 降血压 新药 利 压 平 霜 识别出来的文本: 局内但内但阿内碗内碗但内碗但碗内碗局碗章来琼章罔汁碗章局罔碗汁碗章内汁局汁陈迷内碗扬但陈肥碗肥碗来内碗电罔汁来肥来据来罔碗汁章汁碗汁扭汁罔汁碗来碗来汁语汁语碗语碗罔电局琼电琼电章琼来碗汁碗内碗内电无碗章碗汁碗内碗内汁碗来内来陈汁陈内电阿语碗汁碗来碗来罔来罔来陈来陈罔电碗电碗电章碗来碗局碗局引罔来汁来碗来局支章汁碗汁电来碗殖电汁琼很章祖汁来内来罔电罔来罔来锦来肥电碗著碗章碗汁碗汁单来碗来电汁语汁陈碗陈来很碗肥汁碗罔电罔电来电汁西支音 读入语音文件: /opt/wav/test/D13/D13_823.wav 开始识别语音数据...... 语音原始文本: 五月 的 一天 下大雨 阳 台上 漏 进 许多 雨水 可 又 没有 排 水洞 只好 一盆盆 往 外 端 识别出来的文本: 电内电内碗罔碗汁碗章来章碗局碗汁局汁碗来碗章碗章碗章碗章碗琼来碗章碗扬碗电碗电罔引碗局碗局来很来碗来碗电扬电扬碗罔碗肥碗内碗章碗局碗局碗章汁碗章碗罔琼汁来汁锦汁碗来局汁碗汁碗汁语碗很碗汁碗汁碗汁碗汁来汁碗汁语扬碗罔碗支碗汁碗汁碗局碗肥碗局碗汁碗来碗来碗罔碗扬碗肥引碗汁碗章碗罔碗罔来罔来支电碗来碗来单内碗汁肥很汁肥汁章碗汁碗汁碗汁碗局碗罔碗局汁局罔局很局汁局引支章碗罔琼罔汁来

pergrand avatar Aug 26 '18 19:08 pergrand

使用你提供的模型预测的;代码改成cpu执行的这样的结果 请问什么原因

pergrand avatar Aug 26 '18 19:08 pergrand

我自己训练了一个模型,训练样本基本可以预测准确,但是找一个测试样本测试一下,一点都不准,这过拟合太严重了,但是训练的时候使用了dropout啊,抓狂中

JohnLee168 avatar Aug 27 '18 12:08 JohnLee168

训练了多久啊

pergrand avatar Aug 28 '18 11:08 pergrand

作者的思路是把每个汉字当成一类,也没考虑多音字和同音字吧

amsturdy avatar Aug 30 '18 06:08 amsturdy

我训练了大概10天,采用的CPU训练

JohnLee168 avatar Aug 31 '18 05:08 JohnLee168

@JohnLee168 不会呀,可以看看这个,做了些改进https://github.com/kevinan1/tensorflow-examples/tree/master/speech,然后看看我的解码文件https://github.com/kevinan1/tensorflow-examples/blob/master/speech/steps/decoder.py

Gateway11 avatar Sep 10 '18 14:09 Gateway11

@JohnLee168 过拟合非常严重 预测结果很差 为啥呢?

whaozl avatar Dec 02 '18 07:12 whaozl

我自己训练了一个模型,训练样本基本可以预测准确,但是找一个测试样本测试一下,一点都不准,这过拟合太严重了,但是训练的时候使用了dropout啊,抓狂中

我也是的,用的thchs30的test数据训练的,然后拿了train里面的数据测试,效果很差,不知道要怎么改

shanengcn avatar Dec 05 '18 14:12 shanengcn

@shanengcn 数据量少了 thchs30的说话人分布不好 加大数据量效果会好一些

whaozl avatar Dec 11 '18 02:12 whaozl

使用你提供的模型预测的;代码改成cpu执行的这样的结果 请问什么原因

我也是这种情况,初步推测作者的模型语料的词比较少,可能你的测试语音里出现的字,作者模型里面根本就没有,所以还得自己训练

httttttt avatar May 05 '19 07:05 httttttt

@pergrand 请问你是怎么跑起来的,我运行作者的test.py根本没办法跑起来啊,这是我的预测代码:

wav_files = ['/home/zh/sda2/语音转文本/speech_recognition/data/test/D8/D8_999.wav']
txt_labels = ['国务委员 兼 国务院 秘书长 罗干 民政部 部长 多吉 才 让 也 一同 前往 延安 看望 人民群众']
words_size, words, word_num_map = utils.create_dict(txt_labels)
bi_rnn = BiRNN(wav_files, txt_labels, words_size, words, word_num_map)
bi_rnn.build_target_wav_file_test(wav_files, txt_labels)

checkpoint文件内容:

model_checkpoint_path: "/home/zh/sda2/语音转文本/speech_recognition/model/speech.cpkt-101"
all_model_checkpoint_paths: "/home/zh/sda2/语音转文本/speech_recognition/model/speech.cpkt-101"

能公开下你的预测代码吗?

zhouhao-learning avatar Jul 15 '19 13:07 zhouhao-learning

这个可能是设置的问题。我的ckpt: None,这个是怎么是怎么设置的?

cuiyubin791206 avatar Oct 02 '19 05:10 cuiyubin791206