suchstar
suchstar
### 起始日期 | Start Date _No response_ ### 实现PR | Implementation PR _No response_ ### 相关Issues | Reference Issues _No response_ ### 摘要 | Summary 最近在用Qwen-1_8B-Chat模型做一些文本纠错的事情,但是发现有的时候纠正的超好,有的时候还有待改进。 请问下,我可以如何改进优化,提高成功率? ### 基本示例 |...
检测文本:西安交通大学官网介绍。 [text.txt](https://github.com/shibing624/pycorrector/files/13593234/text.txt) 检测方式:采用中文长句(按照句号分割)和中文短句(按照中文标点分割)的方式分别检测。 检测结果:发现结果中有较多的误报,详情见如下附件。 [文章的检错结果(按照长句(句号分隔)).xlsx](https://github.com/shibing624/pycorrector/files/13593249/default.xlsx) [文章的检错结果(按照短句(中文标点分隔)).xlsx](https://github.com/shibing624/pycorrector/files/13593250/default.xlsx) 请问下专家,这些如何减少误报率呢?我们想到的是将这些误报对做为训练样本,对模型进行再训练,不知道思路是否正确?另外你这边还有更好的解决方式推荐吗?
### Describe the Question Please provide a clear and concise description of what the question is.  使用gpt方式对中文纠错,发现过程中针对名人的名字也检查出了错误,并给出了建议,针对此类场景,gpt有啥办法做到针对人名不检查吗? [text.txt](https://github.com/shibing624/pycorrector/files/13578034/text.txt) 检测输入为:附件text.txt 检测配置为:按照中文标点拆句
这两天调研Pycorrector的GPT模式纠错,感觉结果相对理想,但是我们的目标行业是特定的行业,所以我就在想基于现有的模型shibing624/chatglm3-6b-csc-chinese-lora,THUDM/chatglm3-6b再次加强训练,提升错误检测的准确率,样例代码中也提供了训练方法,但是最终的训练模型在工程话的时候,Pycorrector如何加载使用,这一块有详细的说明吗?
### Required prerequisites - [X] I have read the documentation . - [X] I have searched the [Issue Tracker](https://github.com/baichuan-inc/baichuan-7B/issues) and [Discussions](https://github.com/baichuan-inc/baichuan-7B/discussions) that this hasn't already been reported. (+1 or comment...
### Describe the Question 当前我已经采用样例数据集进行训练了,后期我想自己引入数据集训练。 我想问下,后期我引入的数据集训练的时候,还需要带上原来的训练数据集吗?还是只是增量的就可以? 如果增量的不可以,我有啥办法增量训练吗?