HuaYuexia

Results 17 comments of HuaYuexia

Loss is nan ![image](https://github.com/AmingWu/Single-DGOD/assets/118356093/5631ce07-a076-4fe8-82ae-c5b0d74a78ef)

> The learning rate is set to 0.001. And the batchsize is set to 4. Welcome to communicate with me. Thanks. My learning rate is set to 0.001 too.The difference...

不需要降低版本,只需要按下述修改即可 https://github.com/huggingface/transformers/pull/33934/files/8512a749c0b5a29bca4e7b8cff94194f51b41880#diff-cdf9f9a04db31e893d5004d79f1a1005bbcd0d43716a7635b92b2b7ddfc2965f

> 您可以先基于我们[新release的代码](https://github.com/OpenGVLab/InternVL/tree/main/internvl_chat_gpt_oss)进行微调,我们验证过训练结果的正确性是没有问题的,脚本可以参考[GPT-OSS的脚本](https://github.com/OpenGVLab/InternVL/blob/main/internvl_chat_gpt_oss/shell/internvl3_5_gpt_oss/internvl3_5_gpt_oss_20b_stage2_sft.sh),如果训练的是基于qwen3的模型,记得把`--conv_style "internvl3_5_gpt_oss"`改成`--conv_style "internvl2_5"` 请问正常下游任务微调的话,可以用现在开源的internvl3的脚本嘛

> 我们已经release我们的微调脚本,请参考[脚本](https://github.com/OpenGVLab/InternVL/tree/main/internvl_chat_gpt_oss/shell/internvl3_5_qwen3) 用参考的脚本以及官方的conda环境包,会出现以下问题,请问该如何解决呢 [rank5]: File "/InternVL/internvl_chat_gpt_oss/internvl/utils/s3_config.py", line 90, in __init__ [rank5]: raise exception.ConfigFileNotFoundError(conf_path) [rank5]: internvl.utils.s3_exception.ConfigFileNotFoundError: ConfigFileNotFoundError(/code/petreloss.conf) [TCSLoader] config_path: petreloss.conf

> 我们修复了这个问题,你可以pull一下最新的代码试试,这个pe`petreloss.conf`是用来配置对象存储的,之前的代码在识别是否启用对象存储的时候有点问题,目前已经修复了 新版本上述问题解决了,但在下游数据集sft时,位置编码维度不匹配 File "/InternVL/internvl_chat_gpt_oss/internvl/patch/flash_sink_attn_monkey_patch.py", line 85, in _forward_gpt_oss_with_varlen query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin) File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line 222, in apply_rotary_pos_emb q_embed = _apply_rotary_emb(q, cos, sin) File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line...

> 训练4B模型的话不应该进入GPT-OSS的`apply_rotary_pos_emb`函数吧,这里`--use_custom_flash_attn True`需要设置成`--use_custom_flash_attn False`,也是昨晚的PR一起改的,麻烦改成False之后再试试呢 > > File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line 222, in apply_rotary_pos_emb 感谢,修改为False目前可以正常训练了。但似乎训练时间长了很多,相比internvl2.5-4B,训练速度慢了6倍

> > > 训练4B模型的话不应该进入GPT-OSS的`apply_rotary_pos_emb`函数吧,这里`--use_custom_flash_attn True`需要设置成`--use_custom_flash_attn False`,也是昨晚的PR一起改的,麻烦改成False之后再试试呢 > > > File "/root/miniconda3/envs/internvl3.5/lib/python3.10/site-packages/transformers/models/gpt_oss/modeling_gpt_oss.py", line 222, in apply_rotary_pos_emb > > > > > > 感谢,修改为False目前可以正常训练了。但似乎训练时间长了很多,相比internvl2.5-4B,训练速度慢了6倍 > > 4B的训练速度不该变慢才对,你是不是对比的VL3.5开packing的单个iter速度和vl2.5不开packing的单个iter速度呢 是的

> 你得对比TGS(Token per Gpu per Second),packing之后每个iter计算的样本量和token量都是大幅增加的,不能直接比较单个iter时间 比较的是相同训练数据,训练一个epoch所需的总时间。之前2.5 4B 4h33min,现在需要24h。在八张A800机器上。 不同的是现在通过--max_steps设置一个epoch,计算方法是max_steps = (num_samples // batch_size) * num_epochs。请问是我的计算过程有问题吗?