UI-TARS icon indicating copy to clipboard operation
UI-TARS copied to clipboard

1.5版本的元素坐标识别准确度下降严重

Open woxima opened this issue 7 months ago • 28 comments

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分

woxima avatar Apr 27 '25 07:04 woxima

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?

Noosys avatar Apr 27 '25 09:04 Noosys

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊,大概需要多少显存

Jerry-155 avatar Apr 27 '25 10:04 Jerry-155

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?

就是客户端也不行,感觉这个版本效果差很多

woxima avatar Apr 27 '25 11:04 woxima

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊,大概需要多少显存

至少20GB显存吧,要不就CPU部署

woxima avatar Apr 27 '25 11:04 woxima

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题

Image

图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

cyh2004 avatar Apr 27 '25 12:04 cyh2004

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊,大概需要多少显存

至少20GB显存吧,要不就CPU部署

@woxima

具体如何部署有详细的部署参考嘛,十分感谢

Jerry-155 avatar Apr 28 '25 01:04 Jerry-155

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?

就是客户端也不行,感觉这个版本效果差很多

这版开源的确实不太行,但是豆包上面的1.5调用起来就没有问题,不知道官方怎么会发布的不一致,还是说后处理的方案不太对

Noosys avatar Apr 28 '25 01:04 Noosys

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊,大概需要多少显存

至少20GB显存吧,要不就CPU部署

@woxima

具体如何部署有详细的部署参考嘛,十分感谢

https://github.com/bytedance/UI-TARS/blob/main/README_v1.md#local-deployment-vllm

woxima avatar Apr 28 '25 02:04 woxima

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题

Image

图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

感觉还是哪里有bug,官方API处理是正常的

woxima avatar Apr 28 '25 02:04 woxima

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本

vitanie avatar Apr 28 '25 02:04 vitanie

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本

所以1.5版本相比于1.0版本性能有回退是吗?

leeaction avatar Apr 29 '25 09:04 leeaction

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本

所以1.5版本相比于1.0版本性能有回退是吗?

实测开源版ui-tars1.5确实不如1.0版本,这块需要作者来解释。

vitanie avatar Apr 30 '25 03:04 vitanie

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题

Image

图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

方便提供一下输入的原始图片我们复现一下问题嘛

JjjFangg avatar May 06 '25 09:05 JjjFangg

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本

所以1.5版本相比于1.0版本性能有回退是吗?

1.5版本相对于1.0版本在各benchmark上都有较明显的提升,性能是更强的。 注:火山API的模型和开源版本不是同一个模型,但grounding的能力两个模型是接近的。

JjjFangg avatar May 06 '25 09:05 JjjFangg

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?

方便提供一下grounding有问题的case嘛

JjjFangg avatar May 06 '25 09:05 JjjFangg

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?

您好 请问这个问题解决了吗 1.5 7b效果很差问题

chuheww avatar May 09 '25 06:05 chuheww

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?

您好 请问这个问题解决了吗 1.5 7b效果很差问题

没有,我看新的issue提到了分辨率一致的问题,可以再试试

Noosys avatar May 12 '25 01:05 Noosys

lz本地是用什么部署的呢?我这边也遇到了定位非常离谱的问题

jyxu2015 avatar May 13 '25 10:05 jyxu2015

我也遇到了,用mac部署的1.5版本,坐标定位总是错的,基本属于不可用状态。但是使用官方的火山引擎版本就是可以一切正常。

metro186 avatar May 14 '25 15:05 metro186

使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)

JjjFangg avatar May 15 '25 06:05 JjjFangg

使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)

用https://github.com/bytedance/UI-TARS-desktop 这个客户端(v.0.1.0, v.0.1.1)也定位不准,我的server端试过vllm和lmstudio都是一样,连最简单的 “打开google搜索蛋糕图片” 都无法完成

jyxu2015 avatar May 15 '25 08:05 jyxu2015

使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)

这些坐标测试是符合官方的效果的,但实际问题使用不行,你可以随意测试一个简单问题都通过不了,比如‘查询上海今天的天气’

dafen12 avatar May 19 '25 07:05 dafen12

使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)

这些坐标测试是符合官方的效果的,但实际问题使用不行,你可以随意测试一个简单问题都通过不了,比如‘查询上海今天的天气’

hello,我们更新了desktop repo里面quickstart的doc。我们在MacOS单显示器上,按照quickstart在huggingface部署模型UI-TARS-1.5-7B模型(A100),尝试‘打开chrome,查询北京的天气’是可以得到正确结果的,并没有出现grounding的问题。可以参考https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/quick-start.md, 如果仍无法解决的话可以告诉我们你与quickstart文档的diff [送心送心]。

Taoran-Lu avatar May 19 '25 08:05 Taoran-Lu

我也出现了坐标转换问题,转换坐标严格按照https://www.volcengine.com/docs/82379/1536429

中的坐标转换demo来。发现许多情况下grouding是不准确的。

其中我发现你们的文档提到模型的output是绝对坐标,其值在0-1000之间,但我发现当我的任务是关闭浏览器的时候,其输出的相对坐标已经超出这个区间了。

所使用的模型是私有部署的。

(base) PS D:\code\uiagents\uiagents> & C:/ProgramData/miniconda3/python.exe d:/code/uiagents/uiagents/520pc_manipulate/demonstrate/run.py
data: {'text': 'You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.\n## Output Format\n```\nThought: ...\nAction: ...\n```\n## Action Space\nclick(start_box=\'[x1, y1, x2, y2]\')\nleft_double(start_box=\'[x1, y1, x2, y2]\')\nright_single(start_box=\'[x1, y1, x2, y2]\')\ndrag(start_box=\'[x1, y1, x2, y2]\', end_box=\'[x3, y3, x4, y4]\')\nhotkey(key=\'\')\ntype(content=\'\') #If you want to submit your input, use "\\n" at the end of `content`.\nscroll(start_box=\'[x1, y1, x2, y2]\', direction=\'down or up or right or left\')\nwait() #Sleep for 5s and take a screenshot to check for any changes.\nfinished(content=\'xxx\') # Use escape characters \\\\\', \\\\", and \\\\n in content part to ensure we can parse the content in normal python string format.\n## Note\n- Use Chinese in `Thought` part.\n- Write a small plan and finally summarize your next action (with its target element) in one sentence in `Thought` part.\n## User Instruction关闭浏览器'}
files: {'image': <_io.BufferedReader name='D:\\code\\uiagents\\uiagents\\520pc_manipulate\\demonstrate\\temp_figure_dir\\0.jpeg'>}
Thought: 看来我需要关闭浏览器了。我注意到浏览器窗口右上角有个关闭按钮,点击它就可以结束当前的浏览器会话。这是完成任务的最后一步,让我们来关闭它吧。
Action: click(start_box='(1107,10)')
{'thought': '看来我需要关闭浏览器了。我注意到浏览器窗口右上角有个关闭按钮,点击它就可以结束当前的浏览器会话。这是完成任务的最后一步,让我们来关闭它吧。', 'action': 'click', 'key': None, 'content': None, 'start_box': [1107, 10, 1107, 10], 'end_box': None, 'direction': None}
initial resolution: 1920:1080

Plutoisme avatar May 21 '25 08:05 Plutoisme

https://www.volcengine.com/docs/82379/1536429

注意ui-tar-1.5-7B和doubao-1.5-ui-tars是不同的模型,需要分别遵循对应的文档进行适配。ui-tars-1.5-7B可以参考这个tutorial

JjjFangg avatar May 21 '25 08:05 JjjFangg

#ui-tar-1.5-7B开源不如:ByteDance-Seed/UI-TARS-7B-DPO 准确率高,感觉是官方保留了部分功能,实际评测的结果就是:https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B 不如 https://huggingface.co/ByteDance-Seed/UI-TARS-7B-DPO,估计需要等待其他版本开源,或者其他竞品,就是其他厂商开源竞争才能改善,或者自己微调qwen,能知道的就只是这个赛道是可行的 @

chenke95516 avatar Jul 21 '25 03:07 chenke95516

我看了一下, lmstudio, llamd.cpp 之類的 solution 為了效能,會在取得圖片的時候會 scale 圖片. 因此產出的的座標就不會準。 你必須使用一個不會對圖片做 scale 的 solution.

timtan avatar Jul 26 '25 06:07 timtan

我看了一下, lmstudio, llamd.cpp 之類的 solution 為了效能,會在取得圖片的時候會 scale 圖片. 因此產出的的座標就不會準。 你必須使用一個不會對圖片做 scale 的 solution.

请问有什么推荐的solution么

17603127956 avatar Aug 11 '25 07:08 17603127956