UI-TARS icon indicating copy to clipboard operation
UI-TARS copied to clipboard

OSWorld评测细节

Open ZFish-Lu opened this issue 7 months ago • 1 comments

您好,请问能公开一下在OSWorld评测的更多参数细节吗?我按照如下命令设置参数,其余都使用代码里的默认参数,但复现出来的uitars-1.5-7b准确率只有21.2%,达不到你们公布的26.9%,请问是跑多次取最优结果吗? --headless --observation_type screenshot --sleep_after_execution 0.5 --max_trajectory_length 100

ZFish-Lu avatar May 20 '25 02:05 ZFish-Lu

您好,osworld默认的参数配置就是我们评测的参数,原始的trace在这里,您可以对比看下哪些trace不符合预期哈:https://drive.google.com/file/d/1t-w6OAQHfmRplHbi93aWXZlOBwOQkwY2/view?usp=drive_link

pooruss avatar May 21 '25 08:05 pooruss

您好,请问能公开一下在OSWorld评测的更多参数细节吗?我按照如下命令设置参数,其余都使用代码里的默认参数,但复现出来的uitars-1.5-7b准确率只有21.2%,达不到你们公布的26.9%,请问是跑多次取最优结果吗? --headless --observation_type screenshot --sleep_after_execution 0.5 --max_trajectory_length 100

您好,请问您是否成功复现?我使用uitars-1.5-7b在max-step=15的情况下几乎不可用,是否可以分享您的测试代码?

super-jw avatar Jun 19 '25 05:06 super-jw

您好,osworld默认的参数配置就是我们评测的参数,原始的trace在这里,您可以对比看下哪些trace不符合预期哈:https://drive.google.com/file/d/1t-w6OAQHfmRplHbi93aWXZlOBwOQkwY2/view?usp=drive_link

链接显示无权限

super-jw avatar Jun 19 '25 05:06 super-jw

您好,请问能公开一下在OSWorld评测的更多参数细节吗?我按照如下命令设置参数,其余都使用代码里的默认参数,但复现出来的uitars-1.5-7b准确率只有21.2%,达不到你们公布的26.9%,请问是跑多次取最优结果吗? --headless --observation_type screenshot --sleep_after_execution 0.5 --max_trajectory_length 100

您好,请问您是否成功复现?我使用uitars-1.5-7b在max-step=15的情况下几乎不可用,是否可以分享您的测试代码?

目前复现达到24%准确率,抱歉暂时无法分享代码,如果是我遇到过的bug能帮你看一下

ZFish-Lu avatar Jun 19 '25 07:06 ZFish-Lu

您好,请问能公开一下在OSWorld评测的更多参数细节吗?我按照如下命令设置参数,其余都使用代码里的默认参数,但复现出来的uitars-1.5-7b准确率只有21.2%,达不到你们公布的26.9%,请问是跑多次取最优结果吗? --headless --observation_type screenshot --sleep_after_execution 0.5 --max_trajectory_length 100

您好,请问您是否成功复现?我使用uitars-1.5-7b在max-step=15的情况下几乎不可用,是否可以分享您的测试代码?

目前复现达到24%准确率,抱歉暂时无法分享代码,如果是我遇到过的bug能帮你看一下

你好,uitars1.5在osworld上的指标不是42.5%吗,请问您是在哪里看到的26.9%?我们目前复现出来也只有20%多

hj611 avatar Jul 10 '25 07:07 hj611

您好,请问能公开一下在OSWorld评测的更多参数细节吗?我按照如下命令设置参数,其余都使用代码里的默认参数,但复现出来的uitars-1.5-7b准确率只有21.2%,达不到你们公布的26.9%,请问是跑多次取最优结果吗? --headless --observation_type screenshot --sleep_after_execution 0.5 --max_trajectory_length 100

您好,请问您是否成功复现?我使用uitars-1.5-7b在max-step=15的情况下几乎不可用,是否可以分享您的测试代码?

目前复现达到24%准确率,抱歉暂时无法分享代码,如果是我遇到过的bug能帮你看一下

你好,uitars1.5在osworld上的指标不是42.5%吗,请问您是在哪里看到的26.9%?我们目前复现出来也只有20%多

42.5%的是没开源的uitars-1.5(应该是基于qwen2.5-vl-72b训练的),这个26.9%是uitars-1.5-7b

ZFish-Lu avatar Jul 10 '25 07:07 ZFish-Lu