jyxu2015

Results 10 comments of jyxu2015

> What is the VLM Provider you select? huigging Face for UI-TARS-1.5

> Please refer to this [tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md) for coordinate conversion. If you still encounter issues, feel free to provide a specific example. ![Image](https://github.com/user-attachments/assets/b588bcd3-dae3-4ea9-91f2-0c17a6b699b4)

> 可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF 请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入

> > > 可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF > > > > > > 请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入 > > 支持的 您好,我试了一下,发现lmstudio给出的点击位置都是错误的。。。UI-tars一直卡死在同一步,我用的是您提供的这个模型,lmstudio版本是0.3.16 ![Image](https://github.com/user-attachments/assets/6a735b60-0d21-4af5-8533-95329c4bf5ca)

> 详细设置参考这个帖子:[#145](https://github.com/bytedance/UI-TARS/issues/145) 我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗

> > 详细设置参考这个帖子:[#145](https://github.com/bytedance/UI-TARS/issues/145) > > 我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗 用transformer库就可以实现简单的任务,用vllm和lmstudio推理就无法得到正确的点击位置,估计还是模型的问题

> > 没有测试过midscene,用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作,Q8量化的可能有精度丢失,官方模型是float32,试试不同精度的效果。 > > [@hhao](https://github.com/hhao) > > ![Image](https://github.com/user-attachments/assets/471d6414-7816-47cd-9b7b-cbc8867cc897) 正如你所说的Q8的精度还是存在很大的问题的 请问您最后成功了吗,我用的是0.3.16的lm studio+modelscope的f16文件,ui-tars版本是0.1.0,依旧无法执行最简单的任务

lz本地是用什么部署的呢?我这边也遇到了定位非常离谱的问题

> 使用前可以测试过官方的[tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md),确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别) 用https://github.com/bytedance/UI-TARS-desktop 这个客户端(v.0.1.0, v.0.1.1)也定位不准,我的server端试过vllm和lmstudio都是一样,连最简单的 “打开google搜索蛋糕图片” 都无法完成

请问你用vllm部署的qwenVL做grounding的时候准确率如何