UI-TARS icon indicating copy to clipboard operation
UI-TARS copied to clipboard

如何在本地部署这个模型并完成推理

Open Jerry-155 opened this issue 7 months ago • 4 comments

Jerry-155 avatar Apr 27 '25 10:04 Jerry-155

我也想问 为什么连requirement都没有?

2535853007 avatar Apr 28 '25 03:04 2535853007

同问,我用vllm部署跑OSWorld时,遇到了如下问题

Image

ZFish-Lu avatar Apr 28 '25 04:04 ZFish-Lu

有人用transformers跑通这个了吗?

catsled avatar Apr 28 '25 07:04 catsled

For local deployment, you can refer to the official Qwen2.5-VL vLLM inference script ([link](https://github.com/QwenLM/Qwen2.5-VL?tab=readme-ov-file#quickstart)).

JjjFangg avatar Apr 29 '25 15:04 JjjFangg

可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

hhao avatar May 09 '25 01:05 hhao

可以使用LM Studio 本地运行,参考:https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF可以使用 LM Studio 本地运行,参考: https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

@hhao 请问您这个gguf的版本可以对图片进行推理嘛,我之前试过llama.cpp的,只能t2t,不能i2t

Jerry-155 avatar May 09 '25 03:05 Jerry-155

可以处理图片的。

Image

hhao avatar May 09 '25 06:05 hhao

Image @hhao 好像没找到这个模型

Jerry-155 avatar May 09 '25 07:05 Jerry-155

这里只能搜到 huggingface 上面的模型,我的模型在 modelscope,没有上传 HF

需要手动下载,放到LM Studio 的模型目录。

hhao avatar May 09 '25 08:05 hhao

这里只能搜到 huggingface 上面的模型,我的模型在 modelscope,没有上传 HF

需要手动下载,放到LM Studio 的模型目录。

Image @hhao 对不起我的问题可能有点多,感谢你的帮助我已经成功把模型下载本地,并完成推理,但是我似乎仍然无法针对图片进行处理,是我哪里设置的有问题

Image 之前没用过LM studio

Jerry-155 avatar May 09 '25 08:05 Jerry-155

需要把 mmproj-ui-tars-1.5-f16.gguf 文件和 q8_0.gguf 文件放在一起,就会出现那个支持视觉的眼睛👀

另外,上下文长度要设置为:68000

hhao avatar May 09 '25 08:05 hhao

需要把 mmproj-ui-tars-1.5-f16.gguf 文件和 q8_0.gguf 文件放在一起,就会出现那个支持视觉的眼睛👀

另外,上下文长度要设置为:68000

@hhao 非常感谢您的帮助我现在已经通过LM studio 在本地成功的部署并运行了UI-TARS模型,并且把模型加载到了midscene中,但是现在出现了一个很严重的问题,就是本地模型和直接调用火山的API实际上模型输出坐标的精准度存在很大的问题,不知道您在实际运用中是否遇到过类似的问题

Jerry-155 avatar May 12 '25 01:05 Jerry-155

没有测试过midscene,用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作,Q8量化的可能有精度丢失,官方模型是float32,试试不同精度的效果。

hhao avatar May 12 '25 03:05 hhao

没有测试过midscene,用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作,Q8量化的可能有精度丢失,官方模型是float32,试试不同精度的效果。

@hhao

Image 正如你所说的Q8的精度还是存在很大的问题的

Jerry-155 avatar May 13 '25 01:05 Jerry-155

刚才又试了一下,使用最新版本的UI-Tars-Desktop可以准确,你可以试试。

hhao avatar May 13 '25 05:05 hhao

没有测试过midscene,用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作,Q8量化的可能有精度丢失,官方模型是float32,试试不同精度的效果。

@hhao

Image 正如你所说的Q8的精度还是存在很大的问题的

请问您最后成功了吗,我用的是0.3.16的lm studio+modelscope的f16文件,ui-tars版本是0.1.0,依旧无法执行最简单的任务

jyxu2015 avatar May 15 '25 02:05 jyxu2015