pycorrector
pycorrector copied to clipboard
一篇相对正确的文章,GPT模式检查出来很多错误,这种情况下如何优化
检测文本:西安交通大学官网介绍。 text.txt 检测方式:采用中文长句(按照句号分割)和中文短句(按照中文标点分割)的方式分别检测。 检测结果:发现结果中有较多的误报,详情见如下附件。 文章的检错结果(按照长句(句号分隔)).xlsx 文章的检错结果(按照短句(中文标点分隔)).xlsx
请问下专家,这些如何减少误报率呢?我们想到的是将这些误报对做为训练样本,对模型进行再训练,不知道思路是否正确?另外你这边还有更好的解决方式推荐吗?
- 可以参考gpt的readme https://github.com/shibing624/pycorrector/blob/master/examples/gpt/README.md 训练模型;
- gpt的纠错效果并不是最好的,当前可以用macbert4csc模型更好。
收到,感谢回复