Angelica comments

Results 4 comments of


                                            Angelica

InternVL3-9B LoRA微调数据集预处理速度缓慢问题（大约7h）

> 微调和预处理的时间是重叠的 > > 如果需要加速微调过程，可以参考这里：https://github.com/modelscope/ms-swift/blob/main/examples/train/packing/streaming.sh 您好，感谢回复！ 1. 根据我在运行过程中的观察，程序只是将模型读入了显存，但是gpu的利用率一直都是接近0，所以我这边应该并不是一边微调一边预处理。我觉得这跟参数lazy_tokenize设置为False表现得一致，先map预处理，然后再执行微调。 2. 然后处理时间或许与InternVL预处理的逻辑有关，会慢一些。但是我在之前微调Qwen2.5VL也做过相关的预处理，只不过我之前是手动做的预处理函数，使用了datasets.map函数。相同的数据集开12个进程处理只需要十几分钟，而这次却要7个小时，确实相差大了些 3. 即使是7个小时，我依然坚持让它map了下去，但是map完打印了一行信息： Dataset filtered, origin length: 77389, filtered dataset length: 18755，我在这个项目的看到过相关的issu，但是并没有回复，想知道这是为什么然后怎么避免 4. 最后程序很不幸地报错了，map完成后它输出了一个样本的input_ids和labels_ids，之后似乎又进行了一个map操作，但是这次直接就报错了，报错信息如下：【input_ids:[……]】【labels_ids: [……]】 Map (num_proc=12): 0%| |...

Angelica

InternVL3-9B LoRA微调数据集预处理速度缓慢问题（大约7h）

QwenVL2 72B 序列并行报错维度不匹配

Dataset uses excessive memory when loading files

Dataset uses excessive memory when loading files