GerapyAutoExtractor icon indicating copy to clipboard operation
GerapyAutoExtractor copied to clipboard

对于分页页面爬取的建议

Open zheyuan2025 opened this issue 4 years ago • 0 comments

对于分页页面的爬取,有一些标签容易引入到list或detail中(例如一些浮动的列表元素等),而这些内容在每个分页都会重复,建议对这部分重复的数据进行自适应检测,这部分不属于爬取的内容,属于噪声。

zheyuan2025 avatar Jul 12 '20 15:07 zheyuan2025