UI-TARS 如何在本地部署这个模型并完成推理

Apr 27 '25 10:04 Jerry-155

我也想问为什么连requirement都没有？

Apr 28 '25 03:04 2535853007

同问，我用vllm部署跑OSWorld时，遇到了如下问题

Apr 28 '25 04:04 ZFish-Lu

有人用transformers跑通这个了吗？

Apr 28 '25 07:04 catsled

For local deployment, you can refer to the official Qwen2.5-VL vLLM inference script ([link](https://github.com/QwenLM/Qwen2.5-VL?tab=readme-ov-file#quickstart)).

Apr 29 '25 15:04 JjjFangg

可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

May 09 '25 01:05 hhao

可以使用LM Studio 本地运行，参考：https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF可以使用 LM Studio 本地运行，参考： https://modelscope.cn/models/HHaoAI/UI-TARS-1.5-7B-GGUF

@hhao 请问您这个gguf的版本可以对图片进行推理嘛，我之前试过llama.cpp的，只能t2t，不能i2t

May 09 '25 03:05 Jerry-155

可以处理图片的。

May 09 '25 06:05 hhao

@hhao 好像没找到这个模型

May 09 '25 07:05 Jerry-155

这里只能搜到 huggingface 上面的模型，我的模型在 modelscope，没有上传 HF

需要手动下载，放到LM Studio 的模型目录。

May 09 '25 08:05 hhao

这里只能搜到 huggingface 上面的模型，我的模型在 modelscope，没有上传 HF

需要手动下载，放到LM Studio 的模型目录。

@hhao 对不起我的问题可能有点多，感谢你的帮助我已经成功把模型下载本地，并完成推理，但是我似乎仍然无法针对图片进行处理，是我哪里设置的有问题

之前没用过LM studio

May 09 '25 08:05 Jerry-155

需要把 mmproj-ui-tars-1.5-f16.gguf 文件和 q8_0.gguf 文件放在一起，就会出现那个支持视觉的眼睛👀

另外，上下文长度要设置为：68000

May 09 '25 08:05 hhao

需要把 mmproj-ui-tars-1.5-f16.gguf 文件和 q8_0.gguf 文件放在一起，就会出现那个支持视觉的眼睛👀

另外，上下文长度要设置为：68000

@hhao 非常感谢您的帮助我现在已经通过LM studio 在本地成功的部署并运行了UI-TARS模型，并且把模型加载到了midscene中，但是现在出现了一个很严重的问题，就是本地模型和直接调用火山的API实际上模型输出坐标的精准度存在很大的问题，不知道您在实际运用中是否遇到过类似的问题

May 12 '25 01:05 Jerry-155

没有测试过midscene，用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作，Q8量化的可能有精度丢失，官方模型是float32，试试不同精度的效果。

May 12 '25 03:05 hhao

没有测试过midscene，用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作，Q8量化的可能有精度丢失，官方模型是float32，试试不同精度的效果。

@hhao

正如你所说的Q8的精度还是存在很大的问题的

May 13 '25 01:05 Jerry-155

刚才又试了一下，使用最新版本的UI-Tars-Desktop可以准确，你可以试试。

May 13 '25 05:05 hhao

没有测试过midscene，用UI-TARS-Desktop( https://github.com/bytedance/UI-TARS-desktop/releases/tag/v0.1.0 )测试可以正常执行浏览器操作，Q8量化的可能有精度丢失，官方模型是float32，试试不同精度的效果。

@hhao

正如你所说的Q8的精度还是存在很大的问题的

请问您最后成功了吗，我用的是0.3.16的lm studio+modelscope的f16文件，ui-tars版本是0.1.0，依旧无法执行最简单的任务

May 15 '25 02:05 jyxu2015