Zhongli Li
Zhongli Li
@piglaker Please refer to [this issue](https://github.com/DaDaMrX/ReaLiSe/issues/12).
6. 训练数据有个小trick:Wang271K + 2倍的SIGHAN 建议直接用我们处理好的 `trainall.times2.pkl`
> > 6. 训练数据有个小trick:Wang271K + 2倍的SIGHAN > > > > 建议直接用我们处理好的 `trainall.times2.pkl` > > 您好,请问这个2倍的SIGHAN具体是指?直接用Wang271K + SIGHAN差别大吗?复现出来和论文结果有一定差距。 @Zhouyuhao97 就是将SIGHAN训练数据copy成2份,和wang271k放一起用到每轮的训练。 跟直接用的训练结果差别是有点大,当初实验的文档已经没了,印象有1到2个点的差距。这个trick本身是从spellgcn里发现的,当初hengda同学复现spellgcn时也苦于其复现不出来。 至于为什么那么做能带来提升?应该还是数据分布的修正带来的效果,毕竟wang271k是伪数据。