phybrain
phybrain
> 英文字母出错的时候,应该是导致 tokenizer 在分词的时候出现问题: 例如 `detection` 被错写成 `det*ction` 后, 分词结果可能从 `["detect", "##ion"]` 变成了 `["det", "*", "##ct", "##ion"]`,或是英文单词间的空格会在分词中被过滤掉,其结果是造成了错误句和正确句在分词后词数不相同的问题。 > > 目前的 MacBERT 只能够支持对齐语料,也就是输入和输出需要在词的数量上保证长度一致。所以可能需要在数据处理的时候想想办法了。 例如,刚才提到的属于非词错误 (non-word errors, 即 某个 word "不是一个英文词语") ,可以在检出后使用其他非词错误的解决方案进行处理,目前有很多较为成熟的方式可以处理英文中的非词错误,例如词表检出+编辑距离+LM。...
> 找到了,因为空格没了,谢谢
Thank you for your reply, the score drop a little when i trained on unsorted text。However, from the actual effect, it is not satisfying,and worse than sorted especially the digital...
我自己的densenet+blstm+ctc https://github.com/phybrain/efficientdensenet_crnn,为什么我训练acc 这么低....
@YCG09 acc 0.4 左右,数据用脚本生成,lr=0.005
ctc loss训练其实包含了一部分语言模型
@Jiakui 你没看过ctc论文吗?他是按照路径的概率写的loss公式 (即某种程度上的语言模型),训练网络的参数也是按照gt路径来的,loss不是predict时用的, 一个模型拟合的函数跟loss是相关的。这不是单纯的图片分类的loss,分类输出的是字分类的概率 你可以试下交叉熵识别 肯定很差。加上rnn 只是某种程度上增强了前后关联的概率,但其实nn本身就能拟合任意函数 理论要好好看啊
@Jiakui 看来你是真没读过论文,理论也不行 自己慢慢学吧
@Jiakui 嗯你说的对,你都是对的。大神
got the same error while compiling BiLSTM nn.LSTM