Sundy1219

Results 14 issues of Sundy1219

Hi,I have a Chinese text,which have 6300440 lines,about 315MB it likes this: ![2018-07-13 10-33-21](https://user-images.githubusercontent.com/19542945/42669988-0546479e-868b-11e8-8584-11d4ea7b7e1f.png) I use the command lmplz -o 5 --prune 1 2 2 3 4 lm.arpa The error...

您好,你们的工程非常棒,集合了小型的优秀的唤醒词模型以及提出创新性的了max_pooling loss.从我们用自己的数据跑你们的模型来看,比较容易过拟合,具体表现: 1,训练集loss过快收敛,训练集acc过快的到达95%以上,大概两个step的时间 2,验证集的数据稍微和训练集有些不一致,loss就比较大,验证集acc=0.如果从同类的数据集中划出一部分数据作为验证集,剩余的作为训练集,loss就比较正常,acc也能达到95%以上. 3,和验证集比较类似的测试集(包括纯干净的数据),测试结果也不佳,激活很差,有的激活率为0 4,从我们的实验结果来看,我们最终的测试集得和训练集尽可能的像,哪怕有比较小的差距,测试结果都是一边倒,个位数的识别率. 5,不知道你们有没有这样的情况,或者说我们还有哪里的技术点没有get到?有没有一些解决方案? 谢谢,期待你们的回复.

你好,看了您的唤醒词工程,5天只误唤醒了一次,觉得非常棒,现在您的工程训练部分,基本都了解了.现在就是后面这如何确定置信度没有相关说明或这工程示例,如果可能的话,希望您能做些指导说明,感谢不尽!!!

你们好,我关注了你们的kws远场项目,我看了你们的说明,你们用的是交叉熵作为loss. 对正样本唤醒词做了对齐,负样本不做对齐,标签用的是char,比如"小爱同学", 网络输出是0 , 1, 2, 3, 4这五个节点,0代表filler,其它四个代表"小爱同学". 对于一段长音频wav, 你们是怎么计算唤醒词的置信度的? 我在你们的工程里没找到测试的decode部分,麻烦可以指点一下,谢谢