senlinuc

Results 26 comments of senlinuc

现在不需要验证了,你再试试

我还不太确定语料平衡能带来多大的提升,不过目前我想到一个简单的方法:先统计字频,再计算出每个句子的平均字频(语料最终会拆分成单个句子),再对句子进行复制,频率低的多复制几份,最后再对新的句子列表均匀采样

这几天我把网络结构和训练好的模型都放上去,不过网络结构跟中文的差不多

正在整理,整理好了放上来

label.txt是预测用的字典,训练用的标签你可以参考http://pan.baidu.com/s/1c2fHpvE 中的train.txt

改成这个链接了:https://pan.baidu.com/s/1dFda6R3

训练方式没什么特别,数据准备好后用examples\ocr下面的train_val, solver就可以训练。 小数据集也可以但训不出效果呀。

不太清楚你说的backbone是什么意思。中英混合的情况这里确实没有考虑。另外你说的感受野也确实是影响精度的重要因素,感受野太小的话每个时刻的特征就难有很好的代表性和区分性,感受野太大的话又容易带来混淆和漏字,这个要根据实际数据的情况来调整。191238062,我的QQ,欢迎一起讨论。

我生成的中文数据集里也有少量英文和数字,这种中英混合我感觉只要总量足够,比例调整好,应该可以一次训练。