ZTurboX

[email protected]

Results 50 comments of


                                            ZTurboX

macbert微调

macbert方法的预测，为什么infer.py和macbert_corrector.py加载的模型不一样。infer.py使用MacBert4Csc,而macbert_corrector.py使用BertForMaskedLM。

macbert微调

> @zhentaoCoding 我这边跑 5 轮（SIGHAN13-15 除去 SIGHAN15_test；Wang271K）作为训练集，我在模型网络上有加一些其它的东西，可以在第 3 个 epoch 收敛。结论是我这个训练可以达到 repo 里相应指标的高度，也许可以作参考。 > > @shibing624 老师您好，关于评估指标有个小问题：我用同一个模型的 predict 结果来跑 evaluation.py 里的句子级别评价指标 F1 和我用 iqiyi 的 FASPELL 的句子级别评价指标[脚本](https://github.com/iqiyi/FASPell/blob/5060b220423181f7bcc66a2a1830cf60f4835da7/faspell.py#L508)算出来的会有些不同（FASPELL 的计算方式...

macbert微调

> @zhentaoCoding 我的做法是上面我说的训练集按9:1分训练集和验证集。用验证集loss最低时的模型参数来做评估。使用pycorrector 这边的评测方法可以达到差不多的效果。一个想法是你仅在Wang271k上（看起来你是没有加入其他的sighan数据）拟合好了之后，和SIGHAN15的错误类型分布有较大不同？ > > 但我在网络基础上有加一些额外的结构和loss，没有做过原版网络的实验，所以也说只能是仅作参考啦。我加入SIGHAN15训练数据试试

macbert微调

> @zhentaoCoding 我的做法是上面我说的训练集按9:1分训练集和验证集。用验证集loss最低时的模型参数来做评估。使用pycorrector 这边的评测方法可以达到差不多的效果。一个想法是你仅在Wang271k上（看起来你是没有加入其他的sighan数据）拟合好了之后，和SIGHAN15的错误类型分布有较大不同？ > > 但我在网络基础上有加一些额外的结构和loss，没有做过原版网络的实验，所以也说只能是仅作参考啦。加了SIGHAN15训练数据，指标就上去了

MacBERT等深度模型误纠解决思路

> 1、模型优化：补充负例case（无错样本），把误纠的填进去； 2、专名过滤：人名、地名、专名等词加到 confusion dict，过滤处理； 3、输出macbert纠错置信度，只纠正高置信度错误。 macbert纠错置信度是怎么算的

大规模语料训练kenlm内存泄漏

> 是内存爆了吗？还是kenlm代码本身的原因预测时，大量请求，内存会爆满，很久不会释放

如何远程访问

> > 挂载远程服务器，如何远程访问 > > 请问您解决了这类问题吗？解决了

wide&deep输入

> 您好，这里有定义， > > https://github.com/PaddlePaddle/PaddleRec/blob/eff6da2d9ab85599e3f849299a6332c6d13643cc/models/rank/wide_deep/dygraph_model.py#L41 用自己的数据训练，wide输入的特征需要做归一化吗

[BUG] Stream removed

@TankLQY I also get this problem, do you solve it?

UIE文本分类

> > UIE可以做文本分类吗 > > 可以做文本分类，不过是建议直接使用applications来使用文本分类，分类方案相对比较齐全 https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_classification 分类标签只有id信息，用applications中的prompt方法可以做吗

1
2
3
4
5
›