chuheww
chuheww
> 您有测试过官方的[tutorial](https://github.com/bytedance/UI-TARS/blob/main/README_coordinates.md)嘛 在实际使用的时候需要确保输入模型的分辨率和后处理时完全一致(因为1.5采用的是绝对坐标,所以分辨率不一致影响会很大 这和1.0有比较大的差别) 好的 感谢您的回复 我解决了这个问题。除此之外,我的另外一个问题是2B模型在ScreenSpot数据集上的测试 Mobile-Text | Mobile-Icon/Widget | Desktop-Text | Desktop-Icon/Widget | Web-Text | Web-Icon/Widget | Avg 分别为 93.0 | 75.5 | 90.7 | 68.6 | 84.3...
> 如果这里所说的 2B 模型 指的是 UI-TARS-2B-SFT,可以尝试使用如下 prompt: > > `` Output only the coordinate of one point in your response. What element matches the following task: **User Instruction** > >...
> 您方便提供一下推理参数嘛 建议使用greedy推理来评测哈 您好,感谢您的回复 我是初学者,给您或许带来了一些回答上的干扰,我直接贴上我的测试代码,希望您可以给予修改意见 初始化方面 def __init__( self, model_path="./UI-TARS-2B-SFT", device_map="auto", ): self.tokenizer = AutoTokenizer.from_pretrained( model_path, trust_remote_code=True, use_fast=True ) self.processor = AutoProcessor.from_pretrained( model_path, trust_remote_code=True, use_fast=True ) self.model = AutoModelForVision2Seq.from_pretrained( model_path,...
> > 使用最新的/UI-TARS-desktop-v0.1.0。 > > 能解决吗,我照着readme里面的坐标处理调用的1.5 7b还是不正确,客户端用的处理不同? 您好 请问这个问题解决了吗 1.5 7b效果很差问题