InternVL icon indicating copy to clipboard operation
InternVL copied to clipboard

1.5最大窗口长度只有2048吗?可不可以设置的更长比如4096

Open sunzx8 opened this issue 1 year ago • 2 comments

sunzx8 avatar May 19 '24 07:05 sunzx8

训练的最大窗口是4096,推理时可以扩大到10k,测试过没问题。 如果是在demo上,可以通过调整Max output tokens来控制: image

czczup avatar May 19 '24 09:05 czczup

请问如果想把训练的长度扩的更大应该怎么办?比如我想扩到8192,应该从预训练开始重新做吗?

sunzx8 avatar May 19 '24 09:05 sunzx8

我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。

czczup avatar May 30 '24 14:05 czczup

我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。

谢谢,请问长度为4096做sft大约需要多少资源?不配置slurm集群可以用16*48G卡来做吗

sunzx8 avatar May 31 '24 03:05 sunzx8

我觉得不需要重头预训练,4k训练的模型直接扩大到8k-10k没有大问题,如果想扩大到更大的长度,可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5Mini-InternVL-Chat-4B-V1-5,这两个模型都是在8k长度下做的SFT。

简单测试了一下4B的 image

这是原图片 3577300715

sunzx8 avatar May 31 '24 03:05 sunzx8

4B的这个问题是Phi3语言模型本身的问题,因为Phi3的词表太小,对中文支持很烂。目前看下来完全没救,以后也会避免使用Phi3来训练模型

czczup avatar Jul 30 '24 13:07 czczup