HuaYuexia comments

Results 17 comments of


                                            HuaYuexia

Loss is

Loss is nan ![image](https://github.com/AmingWu/Single-DGOD/assets/118356093/5631ce07-a076-4fe8-82ae-c5b0d74a78ef)

Loss is

> The learning rate is set to 0.001. And the batchsize is set to 4. Welcome to communicate with me. Thanks. My learning rate is set to 0.001 too.The difference...

[Bug] 在跑8B-MPO finetune完成后保存模型出现UnboundLocalError: cannot access local variable 'default_config' where it is not associated with a value

不需要降低版本，只需要按下述修改即可 https://github.com/huggingface/transformers/pull/33934/files/8512a749c0b5a29bca4e7b8cff94194f51b41880#diff-cdf9f9a04db31e893d5004d79f1a1005bbcd0d43716a7635b92b2b7ddfc2965f

> 您可以先基于我们[新release的代码](https://github.com/OpenGVLab/InternVL/tree/main/internvl_chat_gpt_oss)进行微调，我们验证过训练结果的正确性是没有问题的，脚本可以参考[GPT-OSS的脚本](https://github.com/OpenGVLab/InternVL/blob/main/internvl_chat_gpt_oss/shell/internvl3_5_gpt_oss/internvl3_5_gpt_oss_20b_stage2_sft.sh)，如果训练的是基于qwen3的模型，记得把`--conv_style "internvl3_5_gpt_oss"`改成`--conv_style "internvl2_5"` 请问正常下游任务微调的话，可以用现在开源的internvl3的脚本嘛

关于Internvl3.5的训练

> 我们已经release我们的微调脚本，请参考[脚本](https://github.com/OpenGVLab/InternVL/tree/main/internvl_chat_gpt_oss/shell/internvl3_5_qwen3) 用参考的脚本以及官方的conda环境包，会出现以下问题，请问该如何解决呢 [rank5]: File "/InternVL/internvl_chat_gpt_oss/internvl/utils/s3_config.py", line 90, in __init__ [rank5]: raise exception.ConfigFileNotFoundError(conf_path) [rank5]: internvl.utils.s3_exception.ConfigFileNotFoundError: ConfigFileNotFoundError(/code/petreloss.conf) [TCSLoader] config_path: petreloss.conf

关于Internvl3.5的训练

> 我们修复了这个问题，你可以pull一下最新的代码试试，这个pe`petreloss.conf`是用来配置对象存储的，之前的代码在识别是否启用对象存储的时候有点问题，目前已经修复了新版本上述问题解决了，但在下游数据集sft时，位置编码维度不匹配 File "/InternVL/internvl_chat_gpt_oss/internvl/patch/flash_sink_attn_monkey_patch.py", line 85, in _forward_gpt_oss_with_varlen query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin) File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line 222, in apply_rotary_pos_emb q_embed = _apply_rotary_emb(q, cos, sin) File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line...

关于Internvl3.5的训练

> 训练4B模型的话不应该进入GPT-OSS的`apply_rotary_pos_emb`函数吧，这里`--use_custom_flash_attn True`需要设置成`--use_custom_flash_attn False`，也是昨晚的PR一起改的，麻烦改成False之后再试试呢 > > File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line 222, in apply_rotary_pos_emb 感谢，修改为False目前可以正常训练了。但似乎训练时间长了很多，相比internvl2.5-4B，训练速度慢了6倍

关于Internvl3.5的训练

> > > 训练4B模型的话不应该进入GPT-OSS的`apply_rotary_pos_emb`函数吧，这里`--use_custom_flash_attn True`需要设置成`--use_custom_flash_attn False`，也是昨晚的PR一起改的，麻烦改成False之后再试试呢 > > > File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line 222, in apply_rotary_pos_emb > > > > > > 感谢，修改为False目前可以正常训练了。但似乎训练时间长了很多，相比internvl2.5-4B，训练速度慢了6倍 > > 4B的训练速度不该变慢才对，你是不是对比的VL3.5开packing的单个iter速度和vl2.5不开packing的单个iter速度呢是的

关于Internvl3.5的训练

> 你得对比TGS（Token per Gpu per Second），packing之后每个iter计算的样本量和token量都是大幅增加的，不能直接比较单个iter时间比较的是相同训练数据，训练一个epoch所需的总时间。之前2.5 4B 4h33min，现在需要24h。在八张A800机器上。不同的是现在通过--max_steps设置一个epoch，计算方法是max_steps = (num_samples // batch_size) * num_epochs。请问是我的计算过程有问题吗？