GeekMonkey comments

Results 8 comments of


                                            GeekMonkey

trafficstars

由于目标计算机积极拒绝，无法连接

> 如题。 > 先贴上两张Log截图 > ![tim 20181009114907](https://user-images.githubusercontent.com/11403290/46650565-95ff3780-cbcf-11e8-92f9-b0ee4d675feb.png) > ![tim 20181009114923](https://user-images.githubusercontent.com/11403290/46650566-9697ce00-cbcf-11e8-8976-032f14e25639.png) > > 以下是`settings.py`的所有配置，不确定是我配置的有问题，还是其他地方出了问题，只要运行起来，刚开始可以爬到一些代理IP并存入数据库里，然后就开始自动进入我自己的爬虫程序。 > > ``` > > BOT_NAME = 'CommoditySpider' > > SPIDER_MODULES = ['CommoditySpider.spiders'] > NEWSPIDER_MODULE = 'CommoditySpider.spiders'...

我是一个初学者

创建 scrapy 项目，可以在CMD终端下执行命令： scrapy startproject 项目名上面的截图，是我自己基于scrapy 框架进行二次开发的

关于文件proxyDBManger.py的问题

subscriptable 是下标的意思，这里表示的错误。应该是数据库中没有代理地址，导致获取出来的 data列表为空

关于文件proxyDBManger.py的问题

这里可以看下打印的日志以及数据库中的数据，是否有ip地址

如何做到增量爬取呢？

> 现在爬取应该是全量爬取的吧?有没有办法全量爬取一次后以后都增量爬取呢？如果后面想增量爬虫，如果对抓取数据做下更新时间标记 time，然后定时去抓取时间比time晚的页面数据就行

question

请问如何限制爬取电影的数量呢？ --------------------------------------- @young2333 限制爬取电影数量，这个需要对代码进行改造下。大体思路是：`TopWorkThread` 类中增加判断 `TaskQueue` 中的 ` contentQueue ` 的大小逻辑。因为程序用到多线程，需要要考虑到线程安全，建议加个锁。另外补充下这几个类的作用： - `middleQueue` middleQueue 是一个队列，里面存放着带有电影详情页的电影分页的 url 地址。每个 url 地址（电影分页）有 25 部电影。 - `TopWorkThread` TopWorkThread 的作用是依次从 middleQueue 中的获取一个 url...

如何爬取到Mysql呢

@luokl2019 本项目是默认保存到 Sqlite 数据库中，你可以根据自己需要，将 Sqlite 数据库连接换成 Mysql 数据库

这程序需要运行多长时间啊。是不是把所有信息爬完统一录入数据库啊

是的，检索完网站所有的信息，才会入库。我记得运行一次大概要1-2小时。其实代码可以优化下，做断点续传功能，即定时存储到数据库。