Results 50 comments of ZTurboX

macbert方法的预测,为什么infer.py和macbert_corrector.py加载的模型不一样。infer.py使用MacBert4Csc,而macbert_corrector.py使用BertForMaskedLM。

> @zhentaoCoding 我这边跑 5 轮 (SIGHAN13-15 除去 SIGHAN15_test;Wang271K)作为训练集,我在模型网络上有加一些其它的东西,可以在第 3 个 epoch 收敛。结论是我这个训练可以达到 repo 里相应指标的高度,也许可以作参考。 > > @shibing624 老师您好,关于评估指标有个小问题: 我用同一个模型的 predict 结果来跑 evaluation.py 里的句子级别评价指标 F1 和我用 iqiyi 的 FASPELL 的句子级别评价指标[脚本](https://github.com/iqiyi/FASPell/blob/5060b220423181f7bcc66a2a1830cf60f4835da7/faspell.py#L508)算出来的会有些不同(FASPELL 的计算方式...

> @zhentaoCoding 我的做法是上面我说的训练集按9:1分训练集和验证集。用验证集loss最低时的模型参数来做评估。使用pycorrector 这边的评测方法可以达到差不多的效果。一个想法是你仅在Wang271k上(看起来你是没有加入其他的sighan数据)拟合好了之后,和SIGHAN15的错误类型分布有较大不同? > > 但我在网络基础上有加一些额外的结构和loss,没有做过原版网络的实验,所以也说只能是仅作参考啦。 我加入SIGHAN15训练数据试试

> @zhentaoCoding 我的做法是上面我说的训练集按9:1分训练集和验证集。用验证集loss最低时的模型参数来做评估。使用pycorrector 这边的评测方法可以达到差不多的效果。一个想法是你仅在Wang271k上(看起来你是没有加入其他的sighan数据)拟合好了之后,和SIGHAN15的错误类型分布有较大不同? > > 但我在网络基础上有加一些额外的结构和loss,没有做过原版网络的实验,所以也说只能是仅作参考啦。 加了SIGHAN15训练数据,指标就上去了

> 1、模型优化:补充负例case(无错样本),把误纠的填进去; 2、专名过滤:人名、地名、专名等词加到 confusion dict,过滤处理; 3、输出macbert纠错置信度,只纠正高置信度错误。 macbert纠错置信度是怎么算的

> 是内存爆了吗?还是kenlm代码本身的原因 预测时,大量请求,内存会爆满,很久不会释放

> > 挂载远程服务器,如何远程访问 > > 请问您解决了这类问题吗? 解决了

> 您好,这里有定义, > > https://github.com/PaddlePaddle/PaddleRec/blob/eff6da2d9ab85599e3f849299a6332c6d13643cc/models/rank/wide_deep/dygraph_model.py#L41 用自己的数据训练,wide输入的特征需要做归一化吗

@TankLQY I also get this problem, do you solve it?

> > UIE可以做文本分类吗 > > 可以做文本分类,不过是建议直接使用applications来使用文本分类,分类方案相对比较齐全 https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_classification 分类标签只有id信息,用applications中的prompt方法可以做吗