wufenglailai

Results 4 comments of wufenglailai

上图中的0卡上的pid 945168 就是 1卡上的进程pid,是否1-7卡上的部分参数或数据 还存放在0卡上? 这种现象是否正常呢? =========== 0卡的进程和 1-7卡的进程都是同一次 断点续训的子进程,应该是 1-7卡上的进程,加载数据(或参数)时,有部分加载到了 0卡上。 带来的问题: 1、会造成0卡显存的 额外占用; 2、不确定会不会对训练结果有影响。

@hiyouga 不能kill啊😭。0卡上的进程,和其他1-7的进程id是一样的。 这是同一次的训练进程。 应该是使用8卡断点续训的时候,1-7卡的进程,有部分数据(或参数)加载到了0卡上。 多卡从0开始sft没问题,断点续训就有这个毛病。

有大佬解决了这个问题吗?是不是加载参数(或数据)时没指定卡啊。

大佬们。我有个问题。 前提:对Qwen3-32B进行预训练,packing=false,长度选择2k,我的每条样本保证token长度不超过2k,假设位 1000。 那么 给模型的 数据,每个样本数据的 input_ids就是 长度是 1001(末尾加eos),不足2k。 疑问: 1、需要手动在 input_ids后面添加 pad_token 吗,把每条样本补长到 2k。 2、需要手动补充 labels列和attention_mask列吗。 labels前1001与input_ids一致,之后置IGNORE_INDEX;attention_mask前1001置1,之后置0