Results 3 comments of Mr-jing

@pavelfeldman Hi! Questions: 1. Are there recommended solutions for handling new tab scenarios? 2. Are there any improvement plans for the Generator in this area? 3. Are there configuration options...

基于视觉方案的,必然存在这个问题。只是现在可能是滚动API不够智能,所以才想着截全屏。 我举一个例子,可能截全屏也没有用。比如:有一个下拉选择框,需要多次滚动才能找下需要选择的选项,甚至是滚动才能实时加载数据,这种截全屏就没有办法解决。 @Shawn1 我觉得只能模拟人的滚动操作,官方建议让滚动API更好用。 @quanru DOM 是一种妥协方案,playwright 都放弃了 DOM,而是使用 Accessibility Tree。不过,我觉得 playwright 的选择器不准,断言困难。midscene 的优势就是:AI来选择、操作、断言,劣势就是受限于 VLM 本身的成熟性。但是方向应该是正确的,因为人做测试就是基于视觉+操作的,而是基于 DOM 或者Accessibility Tree