1.5最大窗口长度只有2048吗?可不可以设置的更长比如4096
训练的最大窗口是4096,推理时可以扩大到10k,测试过没问题。
如果是在demo上,可以通过调整Max output tokens来控制:
请问如果想把训练的长度扩的更大应该怎么办?比如我想扩到8192,应该从预训练开始重新做吗?
我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。
另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5和Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。
我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。
另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5和Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。
谢谢,请问长度为4096做sft大约需要多少资源?不配置slurm集群可以用16*48G卡来做吗
我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。
另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5和Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。
简单测试了一下4B的
这是原图片
4B的这个问题是Phi3语言模型本身的问题,因为Phi3的词表太小,对中文支持很烂。目前看下来完全没救,以后也会避免使用Phi3来训练模型