DizzyK
Results
1
issues of
DizzyK
环境配置: 模型版本:UI-TARS-72B-DPO 运行脚本:官方run_uitars.py 实验设置:pyautogui + screenshot_a11y_tree 硬件配置:4卡A6000 (48GB/卡) 依赖版本:vLLM 0.7.3 在复现OSWorld基准测试时,目前测试运行了test_small.json的全部样本,模型在3步内主动输出"FAIL"终止任务,成功率0%。具体表现为输出乱码并且所有样本均在≤3步时放弃。 