pycorrector icon indicating copy to clipboard operation
pycorrector copied to clipboard

一篇相对正确的文章,GPT模式检查出来很多错误,这种情况下如何优化

Open suchstar opened this issue 1 year ago • 2 comments

检测文本:西安交通大学官网介绍。 text.txt 检测方式:采用中文长句(按照句号分割)和中文短句(按照中文标点分割)的方式分别检测。 检测结果:发现结果中有较多的误报,详情见如下附件。 文章的检错结果(按照长句(句号分隔)).xlsx 文章的检错结果(按照短句(中文标点分隔)).xlsx

请问下专家,这些如何减少误报率呢?我们想到的是将这些误报对做为训练样本,对模型进行再训练,不知道思路是否正确?另外你这边还有更好的解决方式推荐吗?

suchstar avatar Dec 07 '23 00:12 suchstar

  1. 可以参考gpt的readme https://github.com/shibing624/pycorrector/blob/master/examples/gpt/README.md 训练模型;
  2. gpt的纠错效果并不是最好的,当前可以用macbert4csc模型更好。

shibing624 avatar Dec 07 '23 07:12 shibing624

收到,感谢回复

suchstar avatar Dec 07 '23 11:12 suchstar