UI-TARS icon indicating copy to clipboard operation
UI-TARS copied to clipboard

如何在windows上通过transform来推理这个模型,有人成功的嘛?

Open Jerry-155 opened this issue 7 months ago • 9 comments

Jerry-155 avatar May 07 '25 07:05 Jerry-155

tokenizer 和 processor 还有 model 都用transformer库中的Auto 构建就好 , 输入的话按照他官方api部署文档下面有个例子来 输入自己的图片和instruction 送进去 输出结果就好了 不知道您是不是这个意思

chuheww avatar May 07 '25 12:05 chuheww

For local inference, please refer to the official Qwen2.5-VL documentation: 👉 Qwen2.5-VL: Using Transformers to Chat

JjjFangg avatar May 07 '25 14:05 JjjFangg

可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

hhao avatar May 09 '25 09:05 hhao

可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入

jyxu2015 avatar May 13 '25 10:05 jyxu2015

可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入

支持的

hhao avatar May 14 '25 00:05 hhao

可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入

支持的

您好,我试了一下,发现lmstudio给出的点击位置都是错误的。。。UI-tars一直卡死在同一步,我用的是您提供的这个模型,lmstudio版本是0.3.16

Image

jyxu2015 avatar May 14 '25 10:05 jyxu2015

详细设置参考这个帖子:#145

hhao avatar May 15 '25 00:05 hhao

详细设置参考这个帖子:#145

我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗

jyxu2015 avatar May 15 '25 02:05 jyxu2015

详细设置参考这个帖子:#145

我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗

用transformer库就可以实现简单的任务,用vllm和lmstudio推理就无法得到正确的点击位置,估计还是模型的问题

jyxu2015 avatar May 16 '25 08:05 jyxu2015

这个模型是能下载到本地, 不是使用他的sdk 把 哥们

zhuya1996 avatar May 19 '25 06:05 zhuya1996