Angelica

Results 4 comments of Angelica

> 微调和预处理的时间是重叠的 > > 如果需要加速微调过程,可以参考这里:https://github.com/modelscope/ms-swift/blob/main/examples/train/packing/streaming.sh 您好,感谢回复! 1. 根据我在运行过程中的观察,程序只是将模型读入了显存,但是gpu的利用率一直都是接近0,所以我这边应该并不是一边微调一边预处理。我觉得这跟参数lazy_tokenize设置为False表现得一致,先map预处理,然后再执行微调。 2. 然后处理时间或许与InternVL预处理的逻辑有关,会慢一些。但是我在之前微调Qwen2.5VL也做过相关的预处理,只不过我之前是手动做的预处理函数,使用了datasets.map函数。相同的数据集开12个进程处理只需要十几分钟,而这次却要7个小时,确实相差大了些 3. 即使是7个小时,我依然坚持让它map了下去,但是map完打印了一行信息: Dataset filtered, origin length: 77389, filtered dataset length: 18755,我在这个项目的看到过相关的issu,但是并没有回复,想知道这是为什么然后怎么避免 4. 最后程序很不幸地报错了,map完成后它输出了一个样本的input_ids和labels_ids,之后似乎又进行了一个map操作,但是这次直接就报错了,报错信息如下: 【input_ids:[……]】 【labels_ids: [……]】 Map (num_proc=12): 0%| |...

我也是相同的报错,请问你解决了吗

> so the json files are all loaded into memory before converting to arrow? or do they convert 1 json at a time and then they are realeased? I don't...

My dataset is about image descriptions, stored as a 20MB JSON file on disk. However, I need to use the map function to preprocess the images, and after computation, the...