配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差，基本处于不可用状态，但是火山API调用却是正常的，因此有两个问题： 1、火山API的模型是开源版本吗？ 2、如果不是开源版本，开源版本是否存在可以优化的部分

Apr 27 '25 07:04 woxima

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗，我照着readme里面的坐标处理调用的1.5 7b还是不正确，客户端用的处理不同？

Apr 27 '25 09:04 Noosys

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊，大概需要多少显存

Apr 27 '25 10:04 Jerry-155

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗，我照着readme里面的坐标处理调用的1.5 7b还是不正确，客户端用的处理不同？

就是客户端也不行，感觉这个版本效果差很多

Apr 27 '25 11:04 woxima

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊，大概需要多少显存

至少20GB显存吧，要不就CPU部署

Apr 27 '25 11:04 woxima

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题

图中下方的文字是模型的完整输出，红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

Apr 27 '25 12:04 cyh2004

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊，大概需要多少显存

至少20GB显存吧，要不就CPU部署

@woxima

具体如何部署有详细的部署参考嘛，十分感谢

Apr 28 '25 01:04 Jerry-155

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗，我照着readme里面的坐标处理调用的1.5 7b还是不正确，客户端用的处理不同？

就是客户端也不行，感觉这个版本效果差很多

这版开源的确实不太行，但是豆包上面的1.5调用起来就没有问题，不知道官方怎么会发布的不一致，还是说后处理的方案不太对

Apr 28 '25 01:04 Noosys

使用最新的/UI-TARS-desktop-v0.1.0。

你们是怎么在本地部署这个模型的啊，大概需要多少显存

至少20GB显存吧，要不就CPU部署

@woxima

具体如何部署有详细的部署参考嘛，十分感谢

https://github.com/bytedance/UI-TARS/blob/main/README_v1.md#local-deployment-vllm

Apr 28 '25 02:04 woxima

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题

图中下方的文字是模型的完整输出，红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

感觉还是哪里有bug，官方API处理是正常的

Apr 28 '25 02:04 woxima

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差，基本处于不可用状态，但是火山API调用却是正常的，因此有两个问题： 1、火山API的模型是开源版本吗？ 2、如果不是开源版本，开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述，后续会放出其他的优化版本

Apr 28 '25 02:04 vitanie

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差，基本处于不可用状态，但是火山API调用却是正常的，因此有两个问题： 1、火山API的模型是开源版本吗？ 2、如果不是开源版本，开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述，后续会放出其他的优化版本

所以1.5版本相比于1.0版本性能有回退是吗？

Apr 29 '25 09:04 leeaction

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差，基本处于不可用状态，但是火山API调用却是正常的，因此有两个问题： 1、火山API的模型是开源版本吗？ 2、如果不是开源版本，开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述，后续会放出其他的优化版本

所以1.5版本相比于1.0版本性能有回退是吗？

实测开源版ui-tars1.5确实不如1.0版本，这块需要作者来解释。

Apr 30 '25 03:04 vitanie

在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题

图中下方的文字是模型的完整输出，红圈是将模型输出的坐标经过官方给的处理函数处理后的结果

方便提供一下输入的原始图片我们复现一下问题嘛

May 06 '25 09:05 JjjFangg

配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差，基本处于不可用状态，但是火山API调用却是正常的，因此有两个问题： 1、火山API的模型是开源版本吗？ 2、如果不是开源版本，开源版本是否存在可以优化的部分

1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述，后续会放出其他的优化版本

所以1.5版本相比于1.0版本性能有回退是吗？

1.5版本相对于1.0版本在各benchmark上都有较明显的提升，性能是更强的。注：火山API的模型和开源版本不是同一个模型，但grounding的能力两个模型是接近的。

May 06 '25 09:05 JjjFangg

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗，我照着readme里面的坐标处理调用的1.5 7b还是不正确，客户端用的处理不同？

方便提供一下grounding有问题的case嘛

May 06 '25 09:05 JjjFangg

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗，我照着readme里面的坐标处理调用的1.5 7b还是不正确，客户端用的处理不同？

您好请问这个问题解决了吗 1.5 7b效果很差问题

May 09 '25 06:05 chuheww

使用最新的/UI-TARS-desktop-v0.1.0。

能解决吗，我照着readme里面的坐标处理调用的1.5 7b还是不正确，客户端用的处理不同？

您好请问这个问题解决了吗 1.5 7b效果很差问题

没有，我看新的issue提到了分辨率一致的问题，可以再试试

May 12 '25 01:05 Noosys

lz本地是用什么部署的呢？我这边也遇到了定位非常离谱的问题

May 13 '25 10:05 jyxu2015

我也遇到了，用mac部署的1.5版本，坐标定位总是错的，基本属于不可用状态。但是使用官方的火山引擎版本就是可以一切正常。

May 14 '25 15:05 metro186

使用前可以测试过官方的tutorial，确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致（因为1.5采用的是绝对坐标，所以分辨率不一致影响会很大这和1.0有比较大的差别）

May 15 '25 06:05 JjjFangg

使用前可以测试过官方的tutorial，确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致（因为1.5采用的是绝对坐标，所以分辨率不一致影响会很大这和1.0有比较大的差别）

用https://github.com/bytedance/UI-TARS-desktop 这个客户端（v.0.1.0, v.0.1.1）也定位不准，我的server端试过vllm和lmstudio都是一样，连最简单的 “打开google搜索蛋糕图片” 都无法完成

May 15 '25 08:05 jyxu2015

使用前可以测试过官方的tutorial，确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致（因为1.5采用的是绝对坐标，所以分辨率不一致影响会很大这和1.0有比较大的差别）

这些坐标测试是符合官方的效果的，但实际问题使用不行，你可以随意测试一个简单问题都通过不了，比如‘查询上海今天的天气’

May 19 '25 07:05 dafen12

使用前可以测试过官方的tutorial，确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致（因为1.5采用的是绝对坐标，所以分辨率不一致影响会很大这和1.0有比较大的差别）

这些坐标测试是符合官方的效果的，但实际问题使用不行，你可以随意测试一个简单问题都通过不了，比如‘查询上海今天的天气’

hello，我们更新了desktop repo里面quickstart的doc。我们在MacOS单显示器上，按照quickstart在huggingface部署模型UI-TARS-1.5-7B模型(A100)，尝试‘打开chrome，查询北京的天气’是可以得到正确结果的，并没有出现grounding的问题。可以参考https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/quick-start.md，如果仍无法解决的话可以告诉我们你与quickstart文档的diff [送心送心]。

May 19 '25 08:05 Taoran-Lu

我也出现了坐标转换问题，转换坐标严格按照https://www.volcengine.com/docs/82379/1536429

中的坐标转换demo来。发现许多情况下grouding是不准确的。

其中我发现你们的文档提到模型的output是绝对坐标，其值在0-1000之间，但我发现当我的任务是关闭浏览器的时候，其输出的相对坐标已经超出这个区间了。

所使用的模型是私有部署的。

(base) PS D:\code\uiagents\uiagents> & C:/ProgramData/miniconda3/python.exe d:/code/uiagents/uiagents/520pc_manipulate/demonstrate/run.py
data: {'text': 'You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.\n## Output Format\n```\nThought: ...\nAction: ...\n```\n## Action Space\nclick(start_box=\'[x1, y1, x2, y2]\')\nleft_double(start_box=\'[x1, y1, x2, y2]\')\nright_single(start_box=\'[x1, y1, x2, y2]\')\ndrag(start_box=\'[x1, y1, x2, y2]\', end_box=\'[x3, y3, x4, y4]\')\nhotkey(key=\'\')\ntype(content=\'\') #If you want to submit your input, use "\\n" at the end of `content`.\nscroll(start_box=\'[x1, y1, x2, y2]\', direction=\'down or up or right or left\')\nwait() #Sleep for 5s and take a screenshot to check for any changes.\nfinished(content=\'xxx\') # Use escape characters \\\\\', \\\\", and \\\\n in content part to ensure we can parse the content in normal python string format.\n## Note\n- Use Chinese in `Thought` part.\n- Write a small plan and finally summarize your next action (with its target element) in one sentence in `Thought` part.\n## User Instruction关闭浏览器'}
files: {'image': <_io.BufferedReader name='D:\\code\\uiagents\\uiagents\\520pc_manipulate\\demonstrate\\temp_figure_dir\\0.jpeg'>}
Thought: 看来我需要关闭浏览器了。我注意到浏览器窗口右上角有个关闭按钮，点击它就可以结束当前的浏览器会话。这是完成任务的最后一步，让我们来关闭它吧。
Action: click(start_box='(1107,10)')
{'thought': '看来我需要关闭浏览器了。我注意到浏览器窗口右上角有个关闭按钮，点击它就可以结束当前的浏览器会话。这是完成任务的最后一步，让我们来关闭它吧。', 'action': 'click', 'key': None, 'content': None, 'start_box': [1107, 10, 1107, 10], 'end_box': None, 'direction': None}
initial resolution: 1920:1080

May 21 '25 08:05 Plutoisme

https://www.volcengine.com/docs/82379/1536429

注意ui-tar-1.5-7B和doubao-1.5-ui-tars是不同的模型，需要分别遵循对应的文档进行适配。ui-tars-1.5-7B可以参考这个tutorial

May 21 '25 08:05 JjjFangg

#ui-tar-1.5-7B开源不如：ByteDance-Seed/UI-TARS-7B-DPO 准确率高，感觉是官方保留了部分功能，实际评测的结果就是：https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B 不如 https://huggingface.co/ByteDance-Seed/UI-TARS-7B-DPO，估计需要等待其他版本开源，或者其他竞品，就是其他厂商开源竞争才能改善，或者自己微调qwen，能知道的就只是这个赛道是可行的 @

Jul 21 '25 03:07 chenke95516

我看了一下， lmstudio, llamd.cpp 之類的 solution 為了效能，會在取得圖片的時候會 scale 圖片. 因此產出的的座標就不會準。你必須使用一個不會對圖片做 scale 的 solution.

Jul 26 '25 06:07 timtan

我看了一下， lmstudio, llamd.cpp 之類的 solution 為了效能，會在取得圖片的時候會 scale 圖片. 因此產出的的座標就不會準。你必須使用一個不會對圖片做 scale 的 solution.

请问有什么推荐的solution么

Aug 11 '25 07:08 17603127956

1.5版本的元素坐标识别准确度下降严重