midscene [Feature]: Can only capture the current screen, what about the other content?

What problem does this feature solve?

桌面端页面，内容需要滚动才能看全。但是midscene只截取当前屏幕，怎么将不可见部分，一起交给ai去分析呢，这些部分也有ai分析需要依赖的内容。或者能否支持滚动截取整个屏幕（但是可能有分辨率上限的问题）？

What does the proposed API look like?

滚动截屏，提供多张图片

Jun 13 '25 08:06 Shawn1

The query api currently supports sending DOM nodes to AI together, does this meet your needs?

Jun 13 '25 09:06 quanru

好的，我试试

Jun 16 '25 07:06 Shawn1

我的使用场景：桌面端页面，页面高度大概6000px，宽度1200px；LLM使用自部署的Qwen-2.5-VL。通过尝试，Qwen-2.5-VL可以很好的识别大截图（6000px * 1200px，再大也毫无压力，处理速度会相应延迟，大概5s左右返回结果）。鉴于滚动到指定元素，在midscene（playwright）中处理相对繁琐，强烈建议提供截全屏的配置，让用户自行选择是否开启。

Jul 01 '25 01:07 Shawn1

基于视觉方案的，必然存在这个问题。只是现在可能是滚动API不够智能，所以才想着截全屏。

我举一个例子，可能截全屏也没有用。比如：有一个下拉选择框，需要多次滚动才能找下需要选择的选项，甚至是滚动才能实时加载数据，这种截全屏就没有办法解决。 @Shawn1

我觉得只能模拟人的滚动操作，官方建议让滚动API更好用。 @quanru DOM 是一种妥协方案，playwright 都放弃了 DOM，而是使用 Accessibility Tree。不过，我觉得 playwright 的选择器不准，断言困难。midscene 的优势就是：AI来选择、操作、断言，劣势就是受限于 VLM 本身的成熟性。但是方向应该是正确的，因为人做测试就是基于视觉+操作的，而是基于 DOM 或者Accessibility Tree

Nov 07 '25 03:11 Mr-jing