JewelCrawler 重复爬取

重复爬取

Open Joyce0828 opened this issue 7 years ago • 5 comments

前辈您好，我运行您的项目时会出现一部电影爬取好几次，是不是没有去重呢?

May 04 '17 07:05 Joyce0828

有重复的话就不会爬取了，如果某个url在数据库中已经有了，并且标记已爬取的话，后面相同的url就会跳过不爬。

May 07 '17 09:05 DMinerJackie

理论上好像可行，可是为什么我运行的时候同一部电影会抓取好几次

May 07 '17 12:05 Joyce0828

那只是我打出来的log，实际上没有爬取网页^^

May 07 '17 13:05 DMinerJackie

没有考虑过优化么，用redis做去重？

你这个程序效率如何？我之前写了一个，被我删掉了，呃呃呃，现在想直接找一个源码

还有如何应对反爬虫机制

Nov 01 '17 03:11 JPCui

@JPCui 写完之后好长时间没有动，后来也没时间弄。要优化的地方很多，比如基于mysql的CRUD代码太冗余了，代码规范也可以调整下。数据量不是很大的话，用db加上适当的索引页够用了。还没有涉及到反爬~~~

Nov 04 '17 01:11 DMinerJackie