GeekMonkey

Results 8 comments of GeekMonkey
trafficstars

> 如题。 > 先贴上两张Log截图 > ![tim 20181009114907](https://user-images.githubusercontent.com/11403290/46650565-95ff3780-cbcf-11e8-92f9-b0ee4d675feb.png) > ![tim 20181009114923](https://user-images.githubusercontent.com/11403290/46650566-9697ce00-cbcf-11e8-8976-032f14e25639.png) > > 以下是`settings.py`的所有配置,不确定是我配置的有问题,还是其他地方出了问题,只要运行起来,刚开始可以爬到一些代理IP并存入数据库里,然后就开始自动进入我自己的爬虫程序。 > > ``` > > BOT_NAME = 'CommoditySpider' > > SPIDER_MODULES = ['CommoditySpider.spiders'] > NEWSPIDER_MODULE = 'CommoditySpider.spiders'...

创建 scrapy 项目,可以在CMD终端下执行命令: scrapy startproject 项目名 上面的截图,是我自己基于scrapy 框架进行二次开发的

subscriptable 是下标的意思,这里表示的错误。应该是数据库中没有代理地址,导致获取出来的 data列表为空

这里可以看下打印的日志以及数据库中的数据,是否有ip地址

> 现在爬取应该是全量爬取的吧?有没有办法全量爬取一次后以后都增量爬取呢? 如果后面想增量爬虫, 如果对抓取数据做下更新时间标记 time,然后定时去抓取时间比time晚的页面数据就行

请问如何限制爬取电影的数量呢? --------------------------------------- @young2333 限制爬取电影数量,这个需要对代码进行改造下。大体思路是:`TopWorkThread` 类中增加判断 `TaskQueue` 中的 ` contentQueue ` 的大小逻辑。因为程序用到多线程,需要要考虑到线程安全,建议加个 锁。 另外补充下这几个类的作用: - `middleQueue` middleQueue 是一个队列,里面存放着带有电影详情页的电影分页的 url 地址。每个 url 地址(电影分页)有 25 部电影。 - `TopWorkThread` TopWorkThread 的作用是依次从 middleQueue 中的获取一个 url...

@luokl2019 本项目是默认保存到 Sqlite 数据库中,你可以根据自己需要,将 Sqlite 数据库连接换成 Mysql 数据库

是的,检索完网站所有的信息,才会入库。我记得运行一次大概要1-2小时。其实代码可以优化下,做断点续传功能,即定时存储到数据库。