suchstar issues

Results 6 issues of


                                            suchstar

文本纠错如何提高成功率

question

一篇相对正确的文章，GPT模式检查出来很多错误，这种情况下如何优化

检测文本：西安交通大学官网介绍。 [text.txt](https://github.com/shibing624/pycorrector/files/13593234/text.txt) 检测方式：采用中文长句（按照句号分割）和中文短句（按照中文标点分割）的方式分别检测。检测结果：发现结果中有较多的误报，详情见如下附件。 [文章的检错结果(按照长句（句号分隔）).xlsx](https://github.com/shibing624/pycorrector/files/13593249/default.xlsx) [文章的检错结果(按照短句（中文标点分隔）).xlsx](https://github.com/shibing624/pycorrector/files/13593250/default.xlsx) 请问下专家，这些如何减少误报率呢？我们想到的是将这些误报对做为训练样本，对模型进行再训练，不知道思路是否正确？另外你这边还有更好的解决方式推荐吗？

question

使用GPT，如何保证对人名不纠错

### Describe the Question Please provide a clear and concise description of what the question is. ![2023-12-06_154519](https://github.com/shibing624/pycorrector/assets/128674457/1c1d645d-362e-483d-918a-b21ced172b37) 使用gpt方式对中文纠错，发现过程中针对名人的名字也检查出了错误，并给出了建议，针对此类场景，gpt有啥办法做到针对人名不检查吗？ [text.txt](https://github.com/shibing624/pycorrector/files/13578034/text.txt) 检测输入为：附件text.txt 检测配置为：按照中文标点拆句

question

Pycorrector使用GPT模型方式如何加载自己训练的模型？

这两天调研Pycorrector的GPT模式纠错，感觉结果相对理想，但是我们的目标行业是特定的行业，所以我就在想基于现有的模型shibing624/chatglm3-6b-csc-chinese-lora，THUDM/chatglm3-6b再次加强训练，提升错误检测的准确率，样例代码中也提供了训练方法，但是最终的训练模型在工程话的时候，Pycorrector如何加载使用，这一块有详细的说明吗？

question

[Question] 我想用 Baichuan-7B来开发中文文本纠错功能，主要是错别字，请问下可行性？

### Required prerequisites - [X] I have read the documentation . - [X] I have searched the [Issue Tracker](https://github.com/baichuan-inc/baichuan-7B/issues) and [Discussions](https://github.com/baichuan-inc/baichuan-7B/discussions) that this hasn't already been reported. (+1 or comment...

question

现在使用给定的数据基进行训练，后期我想自己寻找其他的数据集训练

### Describe the Question 当前我已经采用样例数据集进行训练了，后期我想自己引入数据集训练。我想问下，后期我引入的数据集训练的时候，还需要带上原来的训练数据集吗？还是只是增量的就可以？如果增量的不可以，我有啥办法增量训练吗？

question