Long-Context-Data-Engineering
Long-Context-Data-Engineering copied to clipboard
论文复现相关
非常棒得一份工作,我们尝试在中文领域模型上复现这个操作,但实际使用中,参照论文参数,发现使用8*80G A100的卡,继续训练,模型训练上下文只能达到32K,看论文中可以达到80K,能否分享下这里面的技巧