JewelCrawler
JewelCrawler copied to clipboard
重复爬取
前辈您好,我运行您的项目时会出现一部电影爬取好几次,是不是没有去重呢?
有重复的话就不会爬取了,如果某个url在数据库中已经有了,并且标记已爬取的话,后面相同的url就会跳过不爬。
理论上好像可行,可是为什么我运行的时候同一部电影会抓取好几次
那只是我打出来的log,实际上没有爬取网页^^
没有考虑过优化么,用redis做去重?
你这个程序效率如何?我之前写了一个,被我删掉了,呃呃呃,现在想直接找一个源码
还有如何应对反爬虫机制
@JPCui 写完之后好长时间没有动,后来也没时间弄。 要优化的地方很多,比如基于mysql的CRUD代码太冗余了,代码规范也可以调整下。 数据量不是很大的话,用db加上适当的索引页够用了。 还没有涉及到反爬~~~