Ben Rood comments

Results 90 comments of


                                            Ben Rood

ChatGLM模型微调问题咨询

> 我自己训练完了，对于 "少先队员因该为老人让坐" 的输出是正确的了，但是看着最后的loss和train_result我还是有点迷茫，似乎Loss很早就不收敛了，会不会中间某些步数的结果效果会更好？ trian_result: ``` epoch = 1.0 train_loss = 0.14049111964047134 train_runtime = 35059.424 train_samples_per_second = 7.183 train_steps_per_second = 3.592 ``` 中间及部分最后的输出： ``` {'loss': 0.0864, 'learning_rate': 5.5363014025000404e-05, 'epoch': 0.72}...

ChatGLM模型微调问题咨询

> 具体模型效果哪个最好，依赖具体任务评估结果，train loss 最低也并不代表效果就最好。1）可以抽case看各checkpoint效果；2）可以算rouge,bleu看各checkpoint效果；3）csc任务可以看测试集的F1值。 csc任务的测试集似乎也不是全对？比如下面这个（我改了pycorrector/utils/eval.py试着运行一下的结果） ``` input : 后来客人非常地生气，然后叫我过来。 truth : 后来客人非常地生气，然后叫我过来。 predict: 后来客人非常地生气，然后叫我过去。错误字：来 wrong input : 总而言之，正规教育是需要的，但是必要的是学者学习的过程与现在，如何减化不愉快的课程、如何解放学习的压力，这不是学该单方摸索，而是需要适当的辅导老师。 truth : 总而言之，正规教育是需要的，但是必要的是学者学习的过程与现在，如何减化不愉快的课程、如何解放学习的压力，这不是学该单方摸索，而是需要适当的辅导老师。 predict: 总而言之，正规教育是需要的，但是必要的是学者学习的过程与现在，如何减化不愉快的课程、如何解放学习的压力，这不是学生单方摸索，而是需要适当的辅导老师。错误字：该 wrong ```...

ChatGLM模型微调问题咨询

> 是，SIGHAN数据集质量不够高。我去手工修订一次，才1000条，按说还是可以搞的。另外，temperature或者top_p多少设置会更合适？用缺省的设置跑了一次这句话，十次有6次正确。 ``` ['这个人很利害。', '错误字：'] ['这个人很利害。', '错误字：'] ['这个人很厉害。', '错误字：利'] ['这个人很利害。', '错误字：'] ['这个人很危险。', '错误字：利'] ['这个人很厉害。', '错误字：利'] ['这个人很厉害。', '错误字：利'] ['这个人很厉害。', '错误字：利'] ['这个人很厉害。', '错误字：利'] ['这个人很利害。', '错误字：'] ```

ChatGLM模型微调问题咨询

> 数据生成有重复，调高repetition_renalty；这个不是重复，是我重复调用chat了十次，发现结果不稳定。您说的是训练时调整这些参数吗？

ChatGLM模型微调问题咨询

> fixed. [633e376](https://github.com/shibing624/textgen/commit/633e3761f369ecbc4daa89ddad60281a7f8614ca) 我碰到了一个比较奇异的现象，就是[training_chatglm_csc_demo.py](https://github.com/shibing624/textgen/blob/main/examples/chatglm/training_chatglm_csc_demo.py) 这个模式下继续训练似乎无效，而且还会产生忘记训练效果。即使我在文件中增加了 "resume_from_checkpoint": args.output_dir, 这行 ``` diff --git a/examples/chatglm/training_chatglm_csc_demo.py b/examples/chatglm/training_chatglm_csc_demo.py index 84e066b..d291130 100644 --- a/examples/chatglm/training_chatglm_csc_demo.py +++ b/examples/chatglm/training_chatglm_csc_demo.py @@ -81,6 +81,7 @@ def main(): "per_device_train_batch_size": args.batch_size, "num_train_epochs":...

ChatGLM模型微调问题咨询

> 更新代码更新代码后，只有 ‘training_chatglm_adgen_demo.py’ 和 ‘training_chatglm_demo.py’ 有"resume_from_checkpoint" 参数了？是现在不需要这个参数吗？但是无论是否加上这个参数，在一个已经能正确输出标准格式 "错误字: 因” 的模型下继续训练0.1甚至0.01 epoch，都会导致原来训练出的能力丢失。是否加上这个参数的区别仅仅在于会不会有下面的第三行 ``` 2023-05-12 01:59:49.638 | INFO | textgen.chatglm.chatglm_model:load_peft_model:439 - Loaded peft model from output-csc/adapter_model.bin 2023-05-12 01:59:49.640...

Ben Rood

ChatGLM模型微调问题咨询

ChatGLM模型微调问题咨询

ChatGLM模型微调问题咨询

ChatGLM模型微调问题咨询

ChatGLM模型微调问题咨询

ChatGLM模型微调问题咨询

能否把脚本中的sleep全部换成read -t以节省内存

[Feature request]: vless + quic时，允许配置alpn为h3

[Feature request]: vless + quic时，允许配置alpn为h3

[Feature request]: vless + quic时，允许配置alpn为h3