GerapyAutoExtractor icon indicating copy to clipboard operation
GerapyAutoExtractor copied to clipboard

Auto Extractor Module

Results 18 GerapyAutoExtractor issues
Sort by recently updated
recently updated
newest added

我在提取列表页:`aHR0cDovL3d3dy5zaGFuZ2hhaS5nb3YuY24vbncyL253MjMxNC9udzIzMTkvbncyNDA3L253NDg2NzgvaW5kZXguaHRtbA==`(base64)的时候,会存在误提取的情况。 一些页面结构比较复杂,根据现有提取规则会存在误提取或者提取不到的情况,在想能否增加一个功能,不论是列表页提取还是详情页提取,用户自定义传入xpath,缩小提取范围后,再去提取,这样能大大增加提取精度呀。 崔哥加油

enhancement

http://www.beijing.gov.cn/zhengce/zcjd/index_130.html

bug

Add feature for extracting author

enhancement

对于分页页面的爬取,有一些标签容易引入到list或detail中(例如一些浮动的列表元素等),而这些内容在每个分页都会重复,建议对这部分重复的数据进行自适应检测,这部分不属于爬取的内容,属于噪声。

爬取的链接是:https://www.19lou.com/forum-269-1.html 使用extract_list获取到的数据是: [ { "title": "19楼帮帮团维权月来啦!7月维权主题汽车类", "url": "http://www.19lou.com/forum-79-thread-42261592790646553-1-1.html" }, { "title": "19楼帮帮团来咯,求助维权攻略请收下!", "url": "http://www.19lou.com/forum-79-thread-82281589267909116-1-1.html" }, { "title": "【19楼帮帮团】每日诈骗连载!少点套路,多点幸福", "url": "http://www.19lou.com/forum-79-thread-82681592968362354-1-1.html" }, { "title": "杭州人杭州事,你要知道的都在19楼", "url": "http://www.19lou.com/forum-269-thread-63421567731405299-1-1.html" }, { "title": "楼外楼:杭州事【总版规】(本版不支持一切形式广告)",...

bug

def similarity2(s1, s2): """ get similarity of two strings :param s1: :param s2: :return: """ if not s1 or not s2: return 0 s1_set = set(list(s1)) s2_set = set(list(s2)) intersection...

bug

![image](https://user-images.githubusercontent.com/43235339/204746510-1d26de27-26f6-41ea-b46a-721bea07717e.png) 这里是不是写错了呀? 交集除以并集计算相似性?

现在 新闻详情页判断是1 - probability_of_list(html, **kwargs) 在实际生产环境中,哪怕新闻详情页也会包含列表页特征。希望能迭代一下 详情页的判断