ChatGLM2-6B icon indicating copy to clipboard operation
ChatGLM2-6B copied to clipboard

[help]请问基座模型的上下文长度拓展到32k,是基座模型从头开始基于32k的语料进行训练吗?

Open caihaunqai opened this issue 1 year ago • 3 comments

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

您好,感谢您的工作。请问基座模型的上下文长度拓展到32k,是基座模型从头开始基于32k的语料进行训练吗?还是先在短的上下文比如4k进行训练,然后进一步在32k上二次训练呢?

然后在对话阶段只用8k的上下文进行训练?

Expected Behavior

No response

Steps To Reproduce

1

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response

caihaunqai avatar Jun 27 '23 06:06 caihaunqai

那它推理的时候只能参考8K,能参考32么? 目前看生成摘要任务,如果太长,只有最近的2K能起作用,其他的丢掉了。

piaomiaoju avatar Jun 30 '23 09:06 piaomiaoju

https://lmsys.org/blog/2023-06-29-longchat/ 目前看,有效推理才3K上下文

piaomiaoju avatar Jun 30 '23 09:06 piaomiaoju

看效果感觉没有多少长文训练数据

canghongjian avatar Jul 03 '23 03:07 canghongjian

感觉应该是从头开始基于32k的语料进行训练

eziohzy avatar Aug 17 '23 09:08 eziohzy