caffe_ocr icon indicating copy to clipboard operation
caffe_ocr copied to clipboard

关于todo list 中的语料平衡性问题,楼主有什么好的想法,一起交流一下

Open fendaq opened this issue 7 years ago • 1 comments

fendaq avatar Oct 30 '17 15:10 fendaq

我还不太确定语料平衡能带来多大的提升,不过目前我想到一个简单的方法:先统计字频,再计算出每个句子的平均字频(语料最终会拆分成单个句子),再对句子进行复制,频率低的多复制几份,最后再对新的句子列表均匀采样

senlinuc avatar Oct 31 '17 00:10 senlinuc