chuheww
chuheww
> > 运行OSWorld的时候遇到如下bug,无论是vllm部署还是基于transformers部署都会出现如下错误,部署端日志显示应该是传的message格式有问题 > > > > [server.log](https://github.com/user-attachments/files/19961586/server.log) > > 是评测代码里message拼接有问题,已成功运行 请问下 osworld 中 model_type 都是qwen25vl 您是vllm 部署的1.5 7B模型吗 如果部署2B模型解析出来的点击位置不对的话是不是也会导致Exception in chrome/7b6c7e24-c58a-49fc-a5bb-d57b80e5b4c3: local variable 'response' referenced before assignment 这个问题呀 谢谢
> osworld上的实现目前发现有两处bug,已经提pr修复:[xlang-ai/OSWorld#194](https://github.com/xlang-ai/OSWorld/pull/194) > > 另外local variable 'response' referenced before assignment这个报错是非法python代码的错误,点击位置是否正确需要把trace可视化出来检查 您好 我刚刚拉了您的run_uitars 和uitars_agent脚本 本地vllm 部署的是2B-SFT模型 ,run_uitars中直接设置的observation的type为screenshot_a11_tree 然后报了local variable 'response' referenced before assignment 这个问题 无法继续进行后续任务了 您可以帮我看下这个问题吗 
> osworld上的实现目前发现有两处bug,已经提pr修复:[xlang-ai/OSWorld#194](https://github.com/xlang-ai/OSWorld/pull/194) > > 另外local variable 'response' referenced before assignment这个报错是非法python代码的错误,点击位置是否正确需要把trace可视化出来检查 您好,我的第一步可以正常生成结果 且正确 但是第二步 就无法生成respone 直接跳到local variable 'response' referenced before assignment这个报错呢   message格式我拉的是您的 为啥还是有错误呢 INFO: 127.0.0.1:52696 - "POST /v1/chat/completions HTTP/1.1"...
> osworld上的实现目前发现有两处bug,已经提pr修复:[xlang-ai/OSWorld#194](https://github.com/xlang-ai/OSWorld/pull/194) > > 另外local variable 'response' referenced before assignment这个报错是非法python代码的错误,点击位置是否正确需要把trace可视化出来检查 历史消息扩展部分 是不是也需要修改呀 我改为这样可以解决问题 messages.append({ "role": "assistant", "content": [ {"type": "text", "text": add_box_token(history_response)} ] })
> 如题,主要是数据格式,还有哪几块的数据,比如截图+操作指令和对应输出的动作轨迹?数据量大概要多少呢。希望有大佬回答一下,感激不尽 朋友 您好 请问您已经完成了数据集构建的这个工作吗 可以简单咨询您一下,大概的训练流程吗 想了解一下这个流程还有遇到的问题
> > 我理解这里的检查其实没有具体指怎么检查,希望模型自发地通过某些方式去做是吗; 如果是这样的话可能模型能力还不足够,或者可以在instruction里把如何检查说得具体一些 > > 我是在user_instruction末尾加上一条要求,要求模型在输入前检查输入法键盘激活状态。具体的方式比如我用ADB键盘的话,就是检查屏幕底部是否出现"ADB Keyboard{ON}"文本。 那你得需要像阿里的MobileAgent里面用 OCR groundingDINO 这种先检测当前页面文本和图标吧,有了检测在都输入给模型 让模型判断当前的输入里面有没有ADB Keyboard{ON}文本
tokenizer 和 processor 还有 model 都用transformer库中的Auto 构建就好 , 输入的话按照他官方api部署文档下面有个例子来 输入自己的图片和instruction 送进去 输出结果就好了 不知道您是不是这个意思
您好,虽然我还没有在您的这个[WebBench] 上测试 但是我在ScreenSpot数据集上测试 1.5版本也是差好多,还有想问下您 2B模型 您有没有在ScreenSpot这个数据集上测试呢 如果有 您的结果和官方的结果接近吗 官方结果如下图
https://github.com/bytedance/UI-TARS/blob/main/README_v1.md#local-deployment-vllm
> > 您好,虽然我还没有在您的这个[WebBench] 上测试 但是我在ScreenSpot数据集上测试 1.5版本也是差好多,还有想问下您 2B模型 您有没有在ScreenSpot这个数据集上测试呢 如果有 您的结果和官方的结果接近吗 官方结果如下图 > > 可以请问一下您的部署和坐标后处理是如何实现的嘛 我的部署是用transformer库部署的,坐标后处理是直接用的官方的后处理方法 这两个在issues中都有人提到并且有相应的地址,目前看来可能1.5版本的后处理是有问题的