ChatGLM2-6B [help]请问基座模型的上下文长度拓展到32k，是基座模型从头开始基于32k的语料进行训练吗？

[help]请问基座模型的上下文长度拓展到32k，是基座模型从头开始基于32k的语料进行训练吗？

Open caihaunqai opened this issue 1 year ago • 3 comments

您好，感谢您的工作。请问基座模型的上下文长度拓展到32k，是基座模型从头开始基于32k的语料进行训练吗？还是先在短的上下文比如4k进行训练，然后进一步在32k上二次训练呢？

然后在对话阶段只用8k的上下文进行训练？

No response

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

No response

Jun 27 '23 06:06 caihaunqai

那它推理的时候只能参考8K，能参考32么？目前看生成摘要任务，如果太长，只有最近的2K能起作用，其他的丢掉了。

Jun 30 '23 09:06 piaomiaoju

https://lmsys.org/blog/2023-06-29-longchat/ 目前看，有效推理才3K上下文

Jun 30 '23 09:06 piaomiaoju

看效果感觉没有多少长文训练数据

Jul 03 '23 03:07 canghongjian

感觉应该是从头开始基于32k的语料进行训练

Aug 17 '23 09:08 eziohzy