LLaMA-Factory icon indicating copy to clipboard operation
LLaMA-Factory copied to clipboard

data.utils.split_dataset中的切分和随机逻辑能否迁移到data.loader.get_dataset中?

Open luoqishuai opened this issue 8 months ago • 0 comments

Reminder

  • [X] I have read the README and searched the existing issues.

System Info

Reproduction

在使用多机多卡时,要提前使用tokenized_path参数在单节点服务器上提前处理好数据集 但是在后续多节点训练的时候,会使用data.utils.split_dataset函数,会对数据集打乱或者切分,这时候依旧会使用磁盘进行缓存数据. 然后就会导致多节点同时操作同一个磁盘目录.会导致相应异常. 因此建议能否将data.utils.split_dataset中的切分和随机逻辑迁移到data.loader.get_dataset中

如果有其它更好的方法,请大佬指教.

Expected behavior

No response

Others

No response

luoqishuai avatar Jun 07 '24 03:06 luoqishuai