Sundy1219 issues

Results 14 issues of


Sundy1219

ERROR: 1-gram discount out of range for adjusted count 2

Hi,I have a Chinese text,which have 6300440 lines,about 315MB it likes this: ![2018-07-13 10-33-21](https://user-images.githubusercontent.com/19542945/42669988-0546479e-868b-11e8-8584-11d4ea7b7e1f.png) I use the command lmplz -o 5 --prune 1 2 2 3 4 lm.arpa The error...

容易过拟合

您好，你们的工程非常棒，集合了小型的优秀的唤醒词模型以及提出创新性的了max_pooling loss．从我们用自己的数据跑你们的模型来看，比较容易过拟合，具体表现：１，训练集loss过快收敛，训练集acc过快的到达95%以上，大概两个step的时间 2，验证集的数据稍微和训练集有些不一致，loss就比较大，验证集acc=0．如果从同类的数据集中划出一部分数据作为验证集，剩余的作为训练集，loss就比较正常，acc也能达到95%以上. 3，和验证集比较类似的测试集（包括纯干净的数据)，测试结果也不佳，激活很差，有的激活率为0 4，从我们的实验结果来看，我们最终的测试集得和训练集尽可能的像，哪怕有比较小的差距，测试结果都是一边倒，个位数的识别率． 5，不知道你们有没有这样的情况，或者说我们还有哪里的技术点没有get到？有没有一些解决方案？谢谢，期待你们的回复．

如何确定置信度？

你好，看了您的唤醒词工程，５天只误唤醒了一次，觉得非常棒，现在您的工程训练部分，基本都了解了．现在就是后面这如何确定置信度没有相关说明或这工程示例，如果可能的话，希望您能做些指导说明，感谢不尽！！！

speech_dfsmn_kws_char_farfield

你们好，我关注了你们的kws远场项目，我看了你们的说明，你们用的是交叉熵作为loss. 对正样本唤醒词做了对齐，负样本不做对齐，标签用的是char，比如＂小爱同学",　网络输出是0 , 1, 2, 3, 4这五个节点，0代表filler，其它四个代表"小爱同学". 对于一段长音频wav, 你们是怎么计算唤醒词的置信度的? 我在你们的工程里没找到测试的decode部分，麻烦可以指点一下，谢谢