chen21

Results 5 comments of chen21

我在使用 OpenRLHF 多卡训练时也遇到了这个问题,发生在模型 generate 的时候,表现为程序卡住。我在给模型的 generate 方法传参时将 use_cache 从 True 改为 Fasle,这个问题就解决了,这个 warning 没有再弹出,程序也正常运行

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题 ![Image](https://github.com/user-attachments/assets/04494904-859c-4e80-90c8-96fdb315ac7f) 图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

实际上 LLMRayActor 同时也在报错, 同样是 RuntimeError: device >= 0 && device < num_gpus INTERNAL ASSERT FAILED at "../aten/src/ATen/cuda/CUDAContext.cpp":49, please report a bug to PyTorch. device=1, num_gpus=�. 完整的报错输出我也放在上面了 但 ActorModelRayActor 和 CriticModelRayActor...