python-bloomfilter
python-bloomfilter copied to clipboard
Multi-level url deduplication problem 多级url去重的问题
A website has tens of thousands or more urls after rendering, and these urls are hierarchical. If the url of the previous level is judged to be repeated, then its next level url is directly ignored. Can the problem bloomfilter be solved? Where do I need to change?
一个网站经过渲染后有几万甚至更多url,这些url是分级的。如果上一级的url被判断重复了,那么它的下一级url就被直接忽略了,这个问题bloomfilter能解决吗?我需要在哪里修改?有没有大佬能提供一个好的思路?
不太明白你这个分级是什么意思,bloom 你可以采用的办法就是提取相同的部分做过滤 例如 article.com/item/1 article.com/item/2 article.com/item/3...你直接存一个article.com/item/就行,每次来一个设置对应host的摘取规则取出article.com/item/ 去bloom 判断就行
不太明白你这个分级是什么意思,bloom 你可以采用的办法就是提取相同的部分做过滤 例如 article.com/item/1 article.com/item/2 article.com/item/3...你直接存一个article.com/item/就行,每次来一个设置对应host的摘取规则取出article.com/item/ 去bloom 判断就行
他的意思应该是深度爬取的时候,一级url下边有很多层级的url,如果一级url被过滤,下边的url就无法爬取了,类似淘宝这种的:page1不会变,但是里边的详情页会变,需要不断重复爬取