如何在windows上通过transform来推理这个模型,有人成功的嘛?
tokenizer 和 processor 还有 model 都用transformer库中的Auto 构建就好 , 输入的话按照他官方api部署文档下面有个例子来 输入自己的图片和instruction 送进去 输出结果就好了 不知道您是不是这个意思
For local inference, please refer to the official Qwen2.5-VL documentation: 👉 Qwen2.5-VL: Using Transformers to Chat
可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF
可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF
请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入
可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF
请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入
支持的
可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF
请问这个支持视觉么,看了好多帖子说lmstudio的部署不支持图片输入
支持的
您好,我试了一下,发现lmstudio给出的点击位置都是错误的。。。UI-tars一直卡死在同一步,我用的是您提供的这个模型,lmstudio版本是0.3.16
详细设置参考这个帖子:#145
详细设置参考这个帖子:#145
我用的就是0.1.0版本的UI-tars,请问您有float32的gguf文件吗
用transformer库就可以实现简单的任务,用vllm和lmstudio推理就无法得到正确的点击位置,估计还是模型的问题
这个模型是能下载到本地, 不是使用他的sdk 把 哥们