Jingwei Sun
Jingwei Sun
Hi, I wonder whether you have reproduced the results using UI-TARS-72B? During my reproduction process, I noticed the model always repeat the same action and the performance is inconsistent with...
> > 你现在能成功复现吗? > > 我这边测试特别慢,结果还没出来 你好,我这边无法复现,请问你有测试出来吗
> 您好,请问能公开一下在OSWorld评测的更多参数细节吗?我按照如下命令设置参数,其余都使用代码里的默认参数,但复现出来的uitars-1.5-7b准确率只有21.2%,达不到你们公布的26.9%,请问是跑多次取最优结果吗? `--headless --observation_type screenshot --sleep_after_execution 0.5 --max_trajectory_length 100` 您好,请问您是否成功复现?我使用uitars-1.5-7b在max-step=15的情况下几乎不可用,是否可以分享您的测试代码?
> 您好,osworld默认的参数配置就是我们评测的参数,原始的trace在这里,您可以对比看下哪些trace不符合预期哈:https://drive.google.com/file/d/1t-w6OAQHfmRplHbi93aWXZlOBwOQkwY2/view?usp=drive_link 链接显示无权限