jyxu2015 comments

Results 10 comments of


                                            jyxu2015

[Bug]: 网页定位点击错误

> What is the VLM Provider you select？ huigging Face for UI-TARS-1.5

Bug: UI-TARS element locator outputs incorrect coordinates on some pages

> Please refer to this [tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md) for coordinate conversion. If you still encounter issues, feel free to provide a specific example. ![Image](https://github.com/user-attachments/assets/b588bcd3-dae3-4ea9-91f2-0c17a6b699b4)

如何在windows上通过transform来推理这个模型，有人成功的嘛？

> 可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF 请问这个支持视觉么，看了好多帖子说lmstudio的部署不支持图片输入

如何在windows上通过transform来推理这个模型，有人成功的嘛？

> > > 可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF > > > > > > 请问这个支持视觉么，看了好多帖子说lmstudio的部署不支持图片输入 > > 支持的您好，我试了一下，发现lmstudio给出的点击位置都是错误的。。。UI-tars一直卡死在同一步，我用的是您提供的这个模型，lmstudio版本是0.3.16 ![Image](https://github.com/user-attachments/assets/6a735b60-0d21-4af5-8533-95329c4bf5ca)

如何在windows上通过transform来推理这个模型，有人成功的嘛？

> 详细设置参考这个帖子：[#145](https://github.com/bytedance/UI-TARS/issues/145) 我用的就是0.1.0版本的UI-tars，请问您有float32的gguf文件吗

如何在windows上通过transform来推理这个模型，有人成功的嘛？

> > 详细设置参考这个帖子：[#145](https://github.com/bytedance/UI-TARS/issues/145) > > 我用的就是0.1.0版本的UI-tars，请问您有float32的gguf文件吗用transformer库就可以实现简单的任务，用vllm和lmstudio推理就无法得到正确的点击位置，估计还是模型的问题

如何在本地部署这个模型并完成推理

> > 没有测试过midscene，用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作，Q8量化的可能有精度丢失，官方模型是float32，试试不同精度的效果。 > > [@hhao](https://github.com/hhao) > > ![Image](https://github.com/user-attachments/assets/471d6414-7816-47cd-9b7b-cbc8867cc897) 正如你所说的Q8的精度还是存在很大的问题的请问您最后成功了吗，我用的是0.3.16的lm studio+modelscope的f16文件，ui-tars版本是0.1.0，依旧无法执行最简单的任务

1.5版本的元素坐标识别准确度下降严重

lz本地是用什么部署的呢？我这边也遇到了定位非常离谱的问题

1.5版本的元素坐标识别准确度下降严重

> 使用前可以测试过官方的[tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md)，确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致（因为1.5采用的是绝对坐标，所以分辨率不一致影响会很大这和1.0有比较大的差别）用https://github.com/bytedance/UI-TARS-desktop 这个客户端（v.0.1.0, v.0.1.1）也定位不准，我的server端试过vllm和lmstudio都是一样，连最简单的 “打开google搜索蛋糕图片” 都无法完成

vllm 部署后采用openai api调用如何实现流式回复？

请问你用vllm部署的qwenVL做grounding的时候准确率如何