ChatGLM2-6B [BUG/Help] <多轮对话微调训练之后的推理脚本evaluate.sh里是否也应该增加--history

Is there an existing issue for this?

[X] I have searched the existing issues

Current Behavior

之前默认的推理脚本evaluate.sh里没有--history_column history参数，多轮对话微调训练之后推理发现指标很低，增加该参数后发现指标明显上升。

Expected Behavior

No response

Steps To Reproduce

多轮对话微调训练之后的推理脚本evaluate.sh里是否也应该增加--history_column history参数？

Environment

- OS:
- Python:3.10.9
- Transformers:4.30.2
- PyTorch:2.0.1+cu118
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :true

Anything else?

No response

Jul 20 '23 08:07 nlp999

问一下您说的是加上history的时候验证模型时候发现评分变高了是吗？这个应该不影响你推理时候的对话效果吧？
我个人是发现训练多轮时候还不如训练单轮对话的数据效果好，多轮对话即使max_length设置很高了对话一句两句还行后面就无限重复前两句回答，不知道友情况如何.. ：)

Jul 31 '23 02:07 standing88

问一下您说的是加上history的时候验证模型时候发现评分变高了是吗？这个应该不影响你推理时候的对话效果吧？我个人是发现训练多轮时候还不如训练单轮对话的数据效果好，多轮对话即使max_length设置很高了对话一句两句还行后面就无限重复前两句回答，不知道友情况如何.. ：)

是的，这是加history之前的评分 4f0bc2f23d4d0ee5f34836ac998ea57 加了history之后的评分是 c58560a9488b6fffa5a4b2eeb0acb0a 评分确实高了，推理时候的对话效果应该不影响，只是看看能到多少分。单轮对话我没有训练过，只训练的多轮对话，效果分情况，有的表现好，有的表现差，我怀疑可能是数据样本不平衡造成的，我的数据是自己整理的也不多，数据这块挺花费时间的，我目前还在改数据。

Jul 31 '23 05:07 nlp999

问一下你说的是加上历史的时候验证模型的时候发现评分变高了是吗？这个应该不会影响你推理时候的对话效果吧？我个人是发现训练多轮的时候还不如训练单轮对话的数据效果好，多轮对话即使max_length设置了很开心了对话一句两句还行后面就无限重复前两句回答，不知道朋友情况如何..：）

是的，这是加历史之前的评分加了历史之后的评分是评分确实高了，推理时候的对话效果应该不影响，只是看看能到多少分。单轮对话我没有训练过，只训练的多轮对话，效果分情况，有的表现好，有的表现差，我怀疑可能是数据样本不平衡造成的，我的数据是自己整理的也不是多，数据这块挺费时间的，我目前仍在修改数据。

你表现好的模型能进行几轮有效对话呢不知道有没有出现发什么模型都回复同一句话的情况呢。

Jul 31 '23 05:07 standing88

问一下你说的是加上历史的时候验证模型的时候发现评分变高了是吗？这个应该不会影响你推理时候的对话效果吧？我个人是发现训练多轮的时候还不如训练单轮对话的数据效果好，多轮对话即使max_length设置了很开心了对话一句两句还行后面就无限重复前两句回答，不知道朋友情况如何..：）

是的，这是加历史之前的评分加了历史之后的评分是评分确实高了，推理时候的对话效果应该不影响，只是看看能到多少分。单轮对话我没有训练过，只训练的多轮对话，效果分情况，有的表现好，有的表现差，我怀疑可能是数据样本不平衡造成的，我的数据是自己整理的也不是多，数据这块挺费时间的，我目前仍在修改数据。

你表现好的模型能进行几轮有效对话呢不知道有没有出现发什么模型都回复同一句话的情况呢。

我在训练集上也测试了，有的能正常对话四五轮，后面的就不按训练集答复了，也会出现问同一句话模型都回复同一句话的情况，但是换一句话问，模型回复也会变，不是发什么模型都回复同一句话，也可能我测试的还不够多，我目前用的max_source_length是768，我训练了100个epoch，感觉训练集记住的太少，没有达到这个长度，不知你设置的多大？

Jul 31 '23 06:07 nlp999

问一下你说的是加上历史的时候验证模型的时候发现评分变高了是吗？这个应该不会影响你推理时候的对话效果吧？我个人是发现训练多轮的时候还不如训练单轮对话的数据效果好，多轮对话即使max_length设置了很开心了对话一句两句还行后面就无限重复前两句回答，不知道朋友情况如何..：）

是的，这是加历史之前的评分加了历史之后的评分是评分确实高了，推理时候的对话效果应该不影响，只是看看能到多少分。单轮对话我没有训练过，只训练的多轮对话，效果分情况，有的表现好，有的表现差，我怀疑可能是数据样本不平衡造成的，我的数据是自己整理的也不是多，数据这块挺费时间的，我目前仍在修改数据。

你表现好的模型能进行几轮有效对话呢不知道有没有出现发什么模型都回复同一句话的情况呢。

我在训练集上也测试了，有的能正常对话四五轮，后面的就不按训练集答复了，也会出现问同一句话模型都回复同一句话的情况，但是换一句话问，模型回复也会变，不是发什么模型都回复同一句话，也可能我测试的还不够多，我目前用的max_source_length是768，我训练了100个epoch，感觉训练集记住的太少，没有达到这个长度，不知你设置的多大？

这边总是看不到信息 [email protected] 这是我邮箱给我发你联系方式咱们详谈

Aug 02 '23 01:08 standing88

@nlp999 你好，请问可以给下chatglm多轮对话的数据构造样例吗，谢谢

Oct 24 '23 08:10 world2025

问一下你说的是加上历史的时候验证模型的时候发现评分变高了是吗？这个应该不会影响你推理时候的对话效果吧？我个人是发现训练多轮的时候还不如训练单轮对话的数据效果好，多轮对话即使max_length设置了很开心了对话一句两句还行后面就无限重复前两句回答，不知道朋友情况如何..：）

是的，这是加历史之前的评分加了历史之后的评分是评分确实高了，推理时候的对话效果应该不影响，只是看看能到多少分。单轮对话我没有训练过，只训练的多轮对话，效果分情况，有的表现好，有的表现差，我怀疑可能是数据样本不平衡造成的，我的数据是自己整理的也不是多，数据这块挺费时间的，我目前仍在修改数据。

你表现好的模型能进行几轮有效对话呢不知道有没有出现发什么模型都回复同一句话的情况呢。

我在训练集上也测试了，有的能正常对话四五轮，后面的就不按训练集答复了，也会出现问同一句话模型都回复同一句话的情况，但是换一句话问，模型回复也会变，不是发什么模型都回复同一句话，也可能我测试的还不够多，我目前用的max_source_length是768，我训练了100个epoch，感觉训练集记住的太少，没有达到这个长度，不知你设置的多大？

你好，请问解决了吗，我也遇到了这个问题

Nov 30 '23 07:11 xiki-1014

[BUG/Help] <多轮对话微调训练之后的推理脚本evaluate.sh里是否也应该增加--history_column history参数？>

Is there an existing issue for this?

Current Behavior

Expected Behavior

Steps To Reproduce

Environment

Anything else?