[Feature]: Can only capture the current screen, what about the other content?
What problem does this feature solve?
桌面端页面,内容需要滚动才能看全。但是midscene只截取当前屏幕,怎么将不可见部分,一起交给ai去分析呢,这些部分也有ai分析需要依赖的内容。或者能否支持滚动截取整个屏幕(但是可能有分辨率上限的问题)?
What does the proposed API look like?
滚动截屏,提供多张图片
The query api currently supports sending DOM nodes to AI together, does this meet your needs?
好的,我试试
我的使用场景:桌面端页面,页面高度大概6000px,宽度1200px;LLM使用自部署的Qwen-2.5-VL。 通过尝试,Qwen-2.5-VL可以很好的识别大截图(6000px * 1200px,再大也毫无压力,处理速度会相应延迟,大概5s左右返回结果)。 鉴于滚动到指定元素,在midscene(playwright)中处理相对繁琐,强烈建议提供截全屏的配置,让用户自行选择是否开启。
基于视觉方案的,必然存在这个问题。只是现在可能是滚动API不够智能,所以才想着截全屏。
我举一个例子,可能截全屏也没有用。比如:有一个下拉选择框,需要多次滚动才能找下需要选择的选项,甚至是滚动才能实时加载数据,这种截全屏就没有办法解决。 @Shawn1
我觉得只能模拟人的滚动操作,官方建议让滚动API更好用。 @quanru DOM 是一种妥协方案,playwright 都放弃了 DOM,而是使用 Accessibility Tree。不过,我觉得 playwright 的选择器不准,断言困难。midscene 的优势就是:AI来选择、操作、断言,劣势就是受限于 VLM 本身的成熟性。但是方向应该是正确的,因为人做测试就是基于视觉+操作的,而是基于 DOM 或者Accessibility Tree