jyxu2015
jyxu2015
> What is the VLM Provider you select? huigging Face for UI-TARS-1.5
> Please refer to this [tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md) for coordinate conversion. If you still encounter issues, feel free to provide a specific example. 
> 可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF 请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入
> > > 可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF > > > > > > 请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入 > > 支持的 您好,我试了一下,发现lmstudio给出的点击位置都是错误的。。。UI-tars一直卡死在同一步,我用的是您提供的这个模型,lmstudio版本是0.3.16 
> 详细设置参考这个帖子:[#145](https://github.com/bytedance/UI-TARS/issues/145) 我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗
> > 详细设置参考这个帖子:[#145](https://github.com/bytedance/UI-TARS/issues/145) > > 我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗 用transformer库就可以实现简单的任务,用vllm和lmstudio推理就无法得到正确的点击位置,估计还是模型的问题
> > 没有测试过midscene,用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作,Q8量化的可能有精度丢失,官方模型是float32,试试不同精度的效果。 > > [@hhao](https://github.com/hhao) > >  正如你所说的Q8的精度还是存在很大的问题的 请问您最后成功了吗,我用的是0.3.16的lm studio+modelscope的f16文件,ui-tars版本是0.1.0,依旧无法执行最简单的任务
lz本地是用什么部署的呢?我这边也遇到了定位非常离谱的问题
> 使用前可以测试过官方的[tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md),确保坐标转换的正确性。在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别) 用https://github.com/bytedance/UI-TARS-desktop 这个客户端(v.0.1.0, v.0.1.1)也定位不准,我的server端试过vllm和lmstudio都是一样,连最简单的 “打开google搜索蛋糕图片” 都无法完成
请问你用vllm部署的qwenVL做grounding的时候准确率如何