midscene icon indicating copy to clipboard operation
midscene copied to clipboard

[Feature]: Can only capture the current screen, what about the other content?

Open Shawn1 opened this issue 7 months ago • 4 comments

What problem does this feature solve?

桌面端页面,内容需要滚动才能看全。但是midscene只截取当前屏幕,怎么将不可见部分,一起交给ai去分析呢,这些部分也有ai分析需要依赖的内容。或者能否支持滚动截取整个屏幕(但是可能有分辨率上限的问题)?

What does the proposed API look like?

滚动截屏,提供多张图片

Shawn1 avatar Jun 13 '25 08:06 Shawn1

The query api currently supports sending DOM nodes to AI together, does this meet your needs?

quanru avatar Jun 13 '25 09:06 quanru

好的,我试试

Shawn1 avatar Jun 16 '25 07:06 Shawn1

我的使用场景:桌面端页面,页面高度大概6000px,宽度1200px;LLM使用自部署的Qwen-2.5-VL。 通过尝试,Qwen-2.5-VL可以很好的识别大截图(6000px * 1200px,再大也毫无压力,处理速度会相应延迟,大概5s左右返回结果)。 鉴于滚动到指定元素,在midscene(playwright)中处理相对繁琐,强烈建议提供截全屏的配置,让用户自行选择是否开启

Shawn1 avatar Jul 01 '25 01:07 Shawn1

基于视觉方案的,必然存在这个问题。只是现在可能是滚动API不够智能,所以才想着截全屏。

我举一个例子,可能截全屏也没有用。比如:有一个下拉选择框,需要多次滚动才能找下需要选择的选项,甚至是滚动才能实时加载数据,这种截全屏就没有办法解决。 @Shawn1

我觉得只能模拟人的滚动操作,官方建议让滚动API更好用。 @quanru DOM 是一种妥协方案,playwright 都放弃了 DOM,而是使用 Accessibility Tree。不过,我觉得 playwright 的选择器不准,断言困难。midscene 的优势就是:AI来选择、操作、断言,劣势就是受限于 VLM 本身的成熟性。但是方向应该是正确的,因为人做测试就是基于视觉+操作的,而是基于 DOM 或者Accessibility Tree

Mr-jing avatar Nov 07 '25 03:11 Mr-jing