ChatGLM2-6B
ChatGLM2-6B copied to clipboard
[help]请问基座模型的上下文长度拓展到32k,是基座模型从头开始基于32k的语料进行训练吗?
Is there an existing issue for this?
- [X] I have searched the existing issues
Current Behavior
您好,感谢您的工作。请问基座模型的上下文长度拓展到32k,是基座模型从头开始基于32k的语料进行训练吗?还是先在短的上下文比如4k进行训练,然后进一步在32k上二次训练呢?
然后在对话阶段只用8k的上下文进行训练?
Expected Behavior
No response
Steps To Reproduce
1
Environment
- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :
Anything else?
No response
那它推理的时候只能参考8K,能参考32么? 目前看生成摘要任务,如果太长,只有最近的2K能起作用,其他的丢掉了。
https://lmsys.org/blog/2023-06-29-longchat/ 目前看,有效推理才3K上下文
看效果感觉没有多少长文训练数据
感觉应该是从头开始基于32k的语料进行训练