mZhenz comments

Results 2 comments of


                                            mZhenz

cutoff_len 语义混淆

> 大佬们。我有个问题。前提：对Qwen3-32B进行预训练，packing=false，长度选择2k，我的每条样本保证token长度不超过2k，假设位 1000。那么给模型的数据，每个样本数据的 input_ids就是长度是 1001(末尾加eos)，不足2k。 > > 疑问： 1、需要手动在 input_ids后面添加 pad_token 吗，把每条样本补长到 2k。 2、需要手动补充 labels列和attention_mask列吗。 labels前1001与input_ids一致，之后置IGNORE_INDEX；attention_mask前1001置1，之后置0 1和2都不需要，会自动补齐 https://github.com/hiyouga/LLaMA-Factory/blob/main/src/llamafactory/data/processor/supervised.py#L32

[Llama3 Model Distillation] IndexError: pop from empty list

``` root@pruning-master-0:~# pip list | grep modelopt nvidia-modelopt 0.27.1 nvidia-modelopt-core 0.27.1 ``` Yes. I set up my evirnoment with this scripts. Using the latest main branch of NeMo/NeMo-Run/Megatron-LM. ``` pip...