pycorrector 一篇相对正确的文章，GPT模式检查出来很多错误，这种情况下如何优化

一篇相对正确的文章，GPT模式检查出来很多错误，这种情况下如何优化

Open suchstar opened this issue 1 year ago • 2 comments

检测文本：西安交通大学官网介绍。 text.txt 检测方式：采用中文长句（按照句号分割）和中文短句（按照中文标点分割）的方式分别检测。检测结果：发现结果中有较多的误报，详情见如下附件。文章的检错结果(按照长句（句号分隔）).xlsx 文章的检错结果(按照短句（中文标点分隔）).xlsx

请问下专家，这些如何减少误报率呢？我们想到的是将这些误报对做为训练样本，对模型进行再训练，不知道思路是否正确？另外你这边还有更好的解决方式推荐吗？

Dec 07 '23 00:12 suchstar

可以参考gpt的readme https://github.com/shibing624/pycorrector/blob/master/examples/gpt/README.md 训练模型；
gpt的纠错效果并不是最好的，当前可以用macbert4csc模型更好。

Dec 07 '23 07:12 shibing624

收到，感谢回复

Dec 07 '23 11:12 suchstar