GerapyAutoExtractor issues

建议增加一个传入xpath，缩小提取范围的功能

3

我在提取列表页：`aHR0cDovL3d3dy5zaGFuZ2hhaS5nb3YuY24vbncyL253MjMxNC9udzIzMTkvbncyNDA3L253NDg2NzgvaW5kZXguaHRtbA==`(base64)的时候，会存在误提取的情况。一些页面结构比较复杂，根据现有提取规则会存在误提取或者提取不到的情况，在想能否增加一个功能，不论是列表页提取还是详情页提取，用户自定义传入xpath，缩小提取范围后，再去提取，这样能大大增加提取精度呀。崔哥加油

JerryChenn07

enhancement

解析结果有问题

http://www.beijing.gov.cn/zhengce/zcjd/index_130.html

Germey

bug

Extractor of author

Add feature for extracting author

Germey

enhancement

对于分页页面爬取的建议

对于分页页面的爬取，有一些标签容易引入到list或detail中（例如一些浮动的列表元素等），而这些内容在每个分页都会重复，建议对这部分重复的数据进行自适应检测，这部分不属于爬取的内容，属于噪声。

zheyuan2025

Bug of Gerapy Auto Extractor 爬取论坛帖子时候出错

1

爬取的链接是：https://www.19lou.com/forum-269-1.html 使用extract_list获取到的数据是： [ { "title": "19楼帮帮团维权月来啦！7月维权主题汽车类", "url": "http://www.19lou.com/forum-79-thread-42261592790646553-1-1.html" }, { "title": "19楼帮帮团来咯，求助维权攻略请收下！", "url": "http://www.19lou.com/forum-79-thread-82281589267909116-1-1.html" }, { "title": "【19楼帮帮团】每日诈骗连载！少点套路，多点幸福", "url": "http://www.19lou.com/forum-79-thread-82681592968362354-1-1.html" }, { "title": "杭州人杭州事，你要知道的都在19楼", "url": "http://www.19lou.com/forum-269-thread-63421567731405299-1-1.html" }, { "title": "楼外楼：杭州事【总版规】（本版不支持一切形式广告）",...

bowu678

bug

Bug of Gerapy Auto Extractor about similarity2

2

def similarity2(s1, s2): """ get similarity of two strings :param s1: :param s2: :return: """ if not s1 or not s2: return 0 s1_set = set(list(s1)) s2_set = set(list(s2)) intersection...

wf4867612