JewelCrawler icon indicating copy to clipboard operation
JewelCrawler copied to clipboard

重复爬取

Open Joyce0828 opened this issue 7 years ago • 5 comments

前辈您好,我运行您的项目时会出现一部电影爬取好几次,是不是没有去重呢?

Joyce0828 avatar May 04 '17 07:05 Joyce0828

有重复的话就不会爬取了,如果某个url在数据库中已经有了,并且标记已爬取的话,后面相同的url就会跳过不爬。

DMinerJackie avatar May 07 '17 09:05 DMinerJackie

理论上好像可行,可是为什么我运行的时候同一部电影会抓取好几次

Joyce0828 avatar May 07 '17 12:05 Joyce0828

那只是我打出来的log,实际上没有爬取网页^^

DMinerJackie avatar May 07 '17 13:05 DMinerJackie

没有考虑过优化么,用redis做去重?

你这个程序效率如何?我之前写了一个,被我删掉了,呃呃呃,现在想直接找一个源码

还有如何应对反爬虫机制

JPCui avatar Nov 01 '17 03:11 JPCui

@JPCui 写完之后好长时间没有动,后来也没时间弄。 要优化的地方很多,比如基于mysql的CRUD代码太冗余了,代码规范也可以调整下。 数据量不是很大的话,用db加上适当的索引页够用了。 还没有涉及到反爬~~~

DMinerJackie avatar Nov 04 '17 01:11 DMinerJackie