GerapyAutoExtractor icon indicating copy to clipboard operation
GerapyAutoExtractor copied to clipboard

建议增加一个传入xpath,缩小提取范围的功能

Open JerryChenn07 opened this issue 4 years ago • 3 comments

我在提取列表页:aHR0cDovL3d3dy5zaGFuZ2hhaS5nb3YuY24vbncyL253MjMxNC9udzIzMTkvbncyNDA3L253NDg2NzgvaW5kZXguaHRtbA==(base64)的时候,会存在误提取的情况。

一些页面结构比较复杂,根据现有提取规则会存在误提取或者提取不到的情况,在想能否增加一个功能,不论是列表页提取还是详情页提取,用户自定义传入xpath,缩小提取范围后,再去提取,这样能大大增加提取精度呀。

崔哥加油

JerryChenn07 avatar Aug 24 '20 12:08 JerryChenn07

催更催更

顺便提个bug,崔哥试试这个列表页:aHR0cCUzQS8vd3d3Lmd4emYuZ292LmNuL3pmd2ovenpxcm16ZmJndHdqXzM0ODI4LzIwMTVuZ3pid2pfMzQ4MzEv,这个站点提取异常

JerryChenn07 avatar Sep 03 '20 08:09 JerryChenn07

再提一个bug,一个列表页:aHR0cCUzQS8vd3d3Lm54Lmdvdi5jbi96d2drL3F6ZndqL2xpc3RfNTMuaHRtbA==,这是最后一页了,只有2条数据,但是无法提取。

JerryChenn07 avatar Sep 08 '20 07:09 JerryChenn07

再加一个,比如列表页,标题特别长,text()里会省略部分内容,用...替代了,但是他的标签下还有@title,是最全的标题,可否稍作判断

JerryChenn07 avatar Nov 12 '20 06:11 JerryChenn07