1.5版本的元素坐标识别准确度下降严重
配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分
使用最新的/UI-TARS-desktop-v0.1.0。
能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?
使用最新的/UI-TARS-desktop-v0.1.0。
你们是怎么在本地部署这个模型的啊,大概需要多少显存
使用最新的/UI-TARS-desktop-v0.1.0。
能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?
就是客户端也不行,感觉这个版本效果差很多
使用最新的/UI-TARS-desktop-v0.1.0。
你们是怎么在本地部署这个模型的啊,大概需要多少显存
至少20GB显存吧,要不就CPU部署
在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题
图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果
使用最新的/UI-TARS-desktop-v0.1.0。
你们是怎么在本地部署这个模型的啊,大概需要多少显存
至少20GB显存吧,要不就CPU部署
@woxima
具体如何部署有详细的部署参考嘛,十分感谢
使用最新的/UI-TARS-desktop-v0.1.0。
能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?
就是客户端也不行,感觉这个版本效果差很多
这版开源的确实不太行,但是豆包上面的1.5调用起来就没有问题,不知道官方怎么会发布的不一致,还是说后处理的方案不太对
使用最新的/UI-TARS-desktop-v0.1.0。
你们是怎么在本地部署这个模型的啊,大概需要多少显存
至少20GB显存吧,要不就CPU部署
具体如何部署有详细的部署参考嘛,十分感谢
https://github.com/bytedance/UI-TARS/blob/main/README_v1.md#local-deployment-vllm
在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题
图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果
感觉还是哪里有bug,官方API处理是正常的
配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分
1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本
配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分
1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本
所以1.5版本相比于1.0版本性能有回退是吗?
配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分
1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本
所以1.5版本相比于1.0版本性能有回退是吗?
实测开源版ui-tars1.5确实不如1.0版本,这块需要作者来解释。
在使用 UI-Tars 1.5 进行 OSWorld 测试的时候也有这个问题
图中下方的文字是模型的完整输出,红圈是将模型输出的坐标经过官方给的处理函数处理后的结果
方便提供一下输入的原始图片我们复现一下问题嘛
配合使用最新的/UI-TARS-desktop-v0.1.0。效果很差,基本处于不可用状态,但是火山API调用却是正常的,因此有两个问题: 1、火山API的模型是开源版本吗? 2、如果不是开源版本,开源版本是否存在可以优化的部分
1、doubao-ui-tars1.5是内部的sota版本 2、根据官方描述,后续会放出其他的优化版本
所以1.5版本相比于1.0版本性能有回退是吗?
1.5版本相对于1.0版本在各benchmark上都有较明显的提升,性能是更强的。 注:火山API的模型和开源版本不是同一个模型,但grounding的能力两个模型是接近的。
使用最新的/UI-TARS-desktop-v0.1.0。
能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?
方便提供一下grounding有问题的case嘛
使用最新的/UI-TARS-desktop-v0.1.0。
能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?
您好 请问这个问题解决了吗 1.5 7b效果很差问题
使用最新的/UI-TARS-desktop-v0.1.0。
能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同?
您好 请问这个问题解决了吗 1.5 7b效果很差问题
没有,我看新的issue提到了分辨率一致的问题,可以再试试
lz本地是用什么部署的呢?我这边也遇到了定位非常离谱的问题
我也遇到了,用mac部署的1.5版本,坐标定位总是错的,基本属于不可用状态。但是使用官方的火山引擎版本就是可以一切正常。
使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)
使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)
用https://github.com/bytedance/UI-TARS-desktop 这个客户端(v.0.1.0, v.0.1.1)也定位不准,我的server端试过vllm和lmstudio都是一样,连最简单的 “打开google搜索蛋糕图片” 都无法完成
使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)
这些坐标测试是符合官方的效果的,但实际问题使用不行,你可以随意测试一个简单问题都通过不了,比如‘查询上海今天的天气’
使用前可以测试过官方的tutorial,确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别)
这些坐标测试是符合官方的效果的,但实际问题使用不行,你可以随意测试一个简单问题都通过不了,比如‘查询上海今天的天气’
hello,我们更新了desktop repo里面quickstart的doc。我们在MacOS单显示器上,按照quickstart在huggingface部署模型UI-TARS-1.5-7B模型(A100),尝试‘打开chrome,查询北京的天气’是可以得到正确结果的,并没有出现grounding的问题。可以参考https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/quick-start.md, 如果仍无法解决的话可以告诉我们你与quickstart文档的diff [送心送心]。
我也出现了坐标转换问题,转换坐标严格按照https://www.volcengine.com/docs/82379/1536429
中的坐标转换demo来。发现许多情况下grouding是不准确的。
其中我发现你们的文档提到模型的output是绝对坐标,其值在0-1000之间,但我发现当我的任务是关闭浏览器的时候,其输出的相对坐标已经超出这个区间了。
所使用的模型是私有部署的。
(base) PS D:\code\uiagents\uiagents> & C:/ProgramData/miniconda3/python.exe d:/code/uiagents/uiagents/520pc_manipulate/demonstrate/run.py
data: {'text': 'You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.\n## Output Format\n```\nThought: ...\nAction: ...\n```\n## Action Space\nclick(start_box=\'[x1, y1, x2, y2]\')\nleft_double(start_box=\'[x1, y1, x2, y2]\')\nright_single(start_box=\'[x1, y1, x2, y2]\')\ndrag(start_box=\'[x1, y1, x2, y2]\', end_box=\'[x3, y3, x4, y4]\')\nhotkey(key=\'\')\ntype(content=\'\') #If you want to submit your input, use "\\n" at the end of `content`.\nscroll(start_box=\'[x1, y1, x2, y2]\', direction=\'down or up or right or left\')\nwait() #Sleep for 5s and take a screenshot to check for any changes.\nfinished(content=\'xxx\') # Use escape characters \\\\\', \\\\", and \\\\n in content part to ensure we can parse the content in normal python string format.\n## Note\n- Use Chinese in `Thought` part.\n- Write a small plan and finally summarize your next action (with its target element) in one sentence in `Thought` part.\n## User Instruction关闭浏览器'}
files: {'image': <_io.BufferedReader name='D:\\code\\uiagents\\uiagents\\520pc_manipulate\\demonstrate\\temp_figure_dir\\0.jpeg'>}
Thought: 看来我需要关闭浏览器了。我注意到浏览器窗口右上角有个关闭按钮,点击它就可以结束当前的浏览器会话。这是完成任务的最后一步,让我们来关闭它吧。
Action: click(start_box='(1107,10)')
{'thought': '看来我需要关闭浏览器了。我注意到浏览器窗口右上角有个关闭按钮,点击它就可以结束当前的浏览器会话。这是完成任务的最后一步,让我们来关闭它吧。', 'action': 'click', 'key': None, 'content': None, 'start_box': [1107, 10, 1107, 10], 'end_box': None, 'direction': None}
initial resolution: 1920:1080
https://www.volcengine.com/docs/82379/1536429
注意ui-tar-1.5-7B和doubao-1.5-ui-tars是不同的模型,需要分别遵循对应的文档进行适配。ui-tars-1.5-7B可以参考这个tutorial
#ui-tar-1.5-7B开源不如:ByteDance-Seed/UI-TARS-7B-DPO 准确率高,感觉是官方保留了部分功能,实际评测的结果就是:https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B 不如 https://huggingface.co/ByteDance-Seed/UI-TARS-7B-DPO,估计需要等待其他版本开源,或者其他竞品,就是其他厂商开源竞争才能改善,或者自己微调qwen,能知道的就只是这个赛道是可行的 @
我看了一下, lmstudio, llamd.cpp 之類的 solution 為了效能,會在取得圖片的時候會 scale 圖片. 因此產出的的座標就不會準。 你必須使用一個不會對圖片做 scale 的 solution.
我看了一下, lmstudio, llamd.cpp 之類的 solution 為了效能,會在取得圖片的時候會 scale 圖片. 因此產出的的座標就不會準。 你必須使用一個不會對圖片做 scale 的 solution.
请问有什么推荐的solution么