chen21 comments

Results 5 comments of


                                            chen21

使用Badam多卡训练中途弹出Invalidate trace cache @ step 2: expected module 1, but got module 332并停止训练

我在使用 OpenRLHF 多卡训练时也遇到了这个问题，发生在模型 generate 的时候，表现为程序卡住。我在给模型的 generate 方法传参时将 use_cache 从 True 改为 Fasle，这个问题就解决了，这个 warning 没有再弹出，程序也正常运行

1.5版本的元素坐标识别准确度下降严重

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题 ![Image](https://github.com/user-attachments/assets/04494904-859c-4e80-90c8-96fdb315ac7f) 图中下方的文字是模型的完整输出，红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

How to pass action history to model

Same question

RayWorkerWrapper 报错:Error executing method 'init_worker'和INTERNAL ASSERT FAILED at "../aten/src/ATen/cuda/CUDAContext.cpp":49

实际上 LLMRayActor 同时也在报错, 同样是 RuntimeError: device >= 0 && device < num_gpus INTERNAL ASSERT FAILED at "../aten/src/ATen/cuda/CUDAContext.cpp":49, please report a bug to PyTorch. device=1, num_gpus=�. 完整的报错输出我也放在上面了但 ActorModelRayActor 和 CriticModelRayActor...

RayWorkerWrapper 报错:Error executing method 'init_worker'和INTERNAL ASSERT FAILED at "../aten/src/ATen/cuda/CUDAContext.cpp":49

vllm_tensor_parallel_size 改成 1 就可以运行，看起来是 vllm 的问题