UI-TARS 如何在windows上通过transform来推理这个模型，有人成功的嘛？

May 07 '25 07:05 Jerry-155

tokenizer 和 processor 还有 model 都用transformer库中的Auto 构建就好，输入的话按照他官方api部署文档下面有个例子来输入自己的图片和instruction 送进去输出结果就好了不知道您是不是这个意思

May 07 '25 12:05 chuheww

For local inference, please refer to the official Qwen2.5-VL documentation: 👉 Qwen2.5-VL: Using Transformers to Chat

May 07 '25 14:05 JjjFangg

可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

May 09 '25 09:05 hhao

可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

请问这个支持视觉么，看了好多帖子说lmstudio的部署不支持图片输入

May 13 '25 10:05 jyxu2015

可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

请问这个支持视觉么，看了好多帖子说lmstudio的部署不支持图片输入

支持的

May 14 '25 00:05 hhao

可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

请问这个支持视觉么，看了好多帖子说lmstudio的部署不支持图片输入

支持的

您好，我试了一下，发现lmstudio给出的点击位置都是错误的。。。UI-tars一直卡死在同一步，我用的是您提供的这个模型，lmstudio版本是0.3.16

May 14 '25 10:05 jyxu2015

详细设置参考这个帖子：#145

May 15 '25 00:05 hhao

详细设置参考这个帖子：#145

我用的就是0.1.0版本的UI-tars，请问您有float32的gguf文件吗

May 15 '25 02:05 jyxu2015

详细设置参考这个帖子：#145

我用的就是0.1.0版本的UI-tars，请问您有float32的gguf文件吗

用transformer库就可以实现简单的任务，用vllm和lmstudio推理就无法得到正确的点击位置，估计还是模型的问题

May 16 '25 08:05 jyxu2015

这个模型是能下载到本地，不是使用他的sdk 把哥们

May 19 '25 06:05 zhuya1996