Junyang Wang
Junyang Wang
似乎是因为screenrecord指令失败,可以参考[链接](https://github.com/lana-20/adb-shell-screenrecord)
您好,这个问题看上去是planning agent卡住了。请问现在是否解决?
> 没有 我使用的是v2,请问v3有改善吗?顺便v2支持的tensorflow版本太低了,V3/E有支持更高版本的tensorflow或者没有使用tensorflow吗 低版本tensorflow是为了适配读光的文档OCR模型。如果你有更好的OCR模型,可以进行替换,例如使用API版本的OCR模型,这样可以不用安装低版本tensorflow。
> 我使用了代码中提供的qwen-VL-max API,似乎还是需要tensorflow? qwen-VL-max用于图标描述,tensorflow用于OCR文字识别,二者功能是有区别的
This is because there is a problem with your system font path, which causes the wrong font file to be loaded. If you are in Windows, the font file is...
TensorFlow只用于OCR,可以自行替换模型
https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/MobileAgent/text_localization.py 格式是 text -> List ["text1", "text2", ..., "textn"], coordinate -> List [[x1, y1, x2, y2], [x1, y1, x2, y2], ..., [x1, y1, x2, y2]]
> > https://github.com/X-PLUG/MobileAgent/blob/main/Mobile-Agent-v2/MobileAgent/text_localization.py > > 格式是 text -> List ["text1", "text2", ..., "textn"], coordinate -> List [[x1, y1, x2, y2], [x1, y1, x2, y2], ..., [x1, y1, x2, y2]] >...
pip install modelscope==1.15.0
您好,感谢建议。视频中演示的界面目前只适配了v3版本,基于gradio进行了简单的输入输出可视化。对于开源版本,可以查看我们在hugging face和魔搭上的demo,找到源文件浏览即可。