verl 请问grpo的lora训练完成后，保存在actor路径下的.pt文件是已经合并lora之后的模型参数吗？

请问grpo的lora训练完成后，保存在actor路径下的.pt文件是已经合并lora之后的模型参数吗？

Open lifuzhen1024 opened this issue 3 months ago • 13 comments

在训练完lora的grpo之后，在actor路径下同时保存了.pt文件以及lora_adapter，如下图所示：

比较困惑的是，这里的.pt文件是否已经合并了lora的权重？是否需要将.pt文件转为safetensors之后再手动合并lora权重呢？

Aug 16 '25 02:08 lifuzhen1024

同样在这里比较困惑。我觉得是需要使用verl框架下面的model merger合并权重文件变成safetensor格式的。但是我有疑问：（1）lora和fsdp是可以一起使用的吗？（2）合并之后的safetensor格式文件是lora adaptor模型吗？但是没有adaptor_config.json这个文件。

Aug 19 '25 01:08 DolbyUUU

楼主有没有发现lora+grpo/reinforce++训练速度很慢？

这个帖子有提到：https://github.com/volcengine/verl/issues/3115

Aug 19 '25 01:08 DolbyUUU

同样在这里比较困惑。我觉得是需要使用verl框架下面的model merger合并权重文件变成safetensor格式的。但是我有疑问：（1）lora和fsdp是可以一起使用的吗？（2）合并之后的safetensor格式文件是lora adaptor模型吗？但是没有adaptor_config.json这个文件。

我这边验证了下，verl框架下model merge得到的hugging face检查点没有获得预期的结果，但是这个检查点+lora adapter一起送给vllm推理可以获得预期的结果。由此我认为（2）合并之后的safetensor格式文件是模型原本的权重，并不包含lora权重。

Aug 19 '25 02:08 lifuzhen1024