verl icon indicating copy to clipboard operation
verl copied to clipboard

请问grpo的lora训练完成后,保存在actor路径下的.pt文件是已经合并lora之后的模型参数吗?

Open lifuzhen1024 opened this issue 3 months ago • 13 comments

在训练完lora的grpo之后,在actor路径下同时保存了.pt文件以及lora_adapter,如下图所示:

Image

比较困惑的是,这里的.pt文件是否已经合并了lora的权重?是否需要将.pt文件转为safetensors之后再手动合并lora权重呢?

lifuzhen1024 avatar Aug 16 '25 02:08 lifuzhen1024

同样在这里比较困惑。我觉得是需要使用verl框架下面的model merger合并权重文件变成safetensor格式的。但是我有疑问:(1)lora和fsdp是可以一起使用的吗?(2)合并之后的safetensor格式文件是lora adaptor模型吗?但是没有adaptor_config.json这个文件。

DolbyUUU avatar Aug 19 '25 01:08 DolbyUUU

楼主有没有发现lora+grpo/reinforce++训练速度很慢?

这个帖子有提到:https://github.com/volcengine/verl/issues/3115

DolbyUUU avatar Aug 19 '25 01:08 DolbyUUU

同样在这里比较困惑。我觉得是需要使用verl框架下面的model merger合并权重文件变成safetensor格式的。但是我有疑问:(1)lora和fsdp是可以一起使用的吗?(2)合并之后的safetensor格式文件是lora adaptor模型吗?但是没有adaptor_config.json这个文件。

我这边验证了下,verl框架下model merge得到的hugging face检查点没有获得预期的结果,但是这个检查点+lora adapter一起送给vllm推理可以获得预期的结果。由此我认为(2)合并之后的safetensor格式文件是模型原本的权重,并不包含lora权重。

lifuzhen1024 avatar Aug 19 '25 02:08 lifuzhen1024

楼主有没有发现lora+grpo/reinforce++训练速度很慢?

这个帖子有提到:#3115

这个问题没遇到,单机8卡训练72B的gspo+lora,速度约500s/iter。

lifuzhen1024 avatar Aug 19 '25 02:08 lifuzhen1024

请问楼主用的是哪个版本的verl呢?

mootutu avatar Aug 25 '25 01:08 mootutu

请问楼主用的是哪个版本的verl呢?

0.5.x

lifuzhen1024 avatar Aug 25 '25 07:08 lifuzhen1024

请问楼主用的是哪个版本的verl呢?

0.5.x

请问能分享一下脚本吗

mootutu avatar Aug 25 '25 07:08 mootutu

请问楼主,那是不是如果我使用原始模型权重加上lora适配器就可以得到预期结果。

jinzhensheng avatar Sep 15 '25 09:09 jinzhensheng

@QwQwangg Hi, I wonder whether you resolve the efficiency issue of lora?

zhuhanqing avatar Oct 15 '25 20:10 zhuhanqing

请问楼主,那是不是如果我使用原始模型权重加上lora适配器就可以得到预期结果。

我是这么做的,结果符合预期

ZeroMakesAll avatar Oct 17 '25 12:10 ZeroMakesAll

@QwQwangg Hi, I wonder whether you resolve the efficiency issue of lora?

haha I temporary do not use lora to tune a model. 😂

mootutu avatar Oct 17 '25 12:10 mootutu

想请问一下,可以将被训练的基座模型与global_step_xx/actor/lora_adapter下的LoRA直接合并吗?没有必要将.pt文件转为hf格式之后再合并lora权重吧

scut-zx avatar Nov 17 '25 02:11 scut-zx

想请问一下,可以将被训练的基座模型与global_step_xx/actor/lora_adapter下的LoRA直接合并吗?没有必要将.pt文件转为hf格式之后再合并lora权重吧

可以的

cjrrr avatar Nov 17 '25 09:11 cjrrr