InternVL 1.5最大窗口长度只有2048吗？可不可以设置的更长比如4096

May 19 '24 07:05 sunzx8

训练的最大窗口是4096，推理时可以扩大到10k，测试过没问题。如果是在demo上，可以通过调整Max output tokens来控制：

May 19 '24 09:05 czczup

请问如果想把训练的长度扩的更大应该怎么办？比如我想扩到8192，应该从预训练开始重新做吗？

May 19 '24 09:05 sunzx8

我觉得不需要重头预训练，4k训练的模型直接扩大到8k-10k没有大问题，如果想扩大到更大的长度，可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5和Mini-InternVL-Chat-4B-V1-5，这两个模型都是在8k长度下做的SFT。

May 30 '24 14:05 czczup

我觉得不需要重头预训练，4k训练的模型直接扩大到8k-10k没有大问题，如果想扩大到更大的长度，可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5和Mini-InternVL-Chat-4B-V1-5，这两个模型都是在8k长度下做的SFT。

谢谢，请问长度为4096做sft大约需要多少资源？不配置slurm集群可以用16*48G卡来做吗

May 31 '24 03:05 sunzx8

我觉得不需要重头预训练，4k训练的模型直接扩大到8k-10k没有大问题，如果想扩大到更大的长度，可能需要再用长数据做一下微调。

另外您可以试试我们最近发布的Mini-InternVL-Chat-2B-V1-5和Mini-InternVL-Chat-4B-V1-5，这两个模型都是在8k长度下做的SFT。

简单测试了一下4B的

这是原图片 3577300715

May 31 '24 03:05 sunzx8

4B的这个问题是Phi3语言模型本身的问题，因为Phi3的词表太小，对中文支持很烂。目前看下来完全没救，以后也会避免使用Phi3来训练模型

Jul 30 '24 13:07 czczup