GeekMonkey
GeekMonkey
> 如题。 > 先贴上两张Log截图 >  >  > > 以下是`settings.py`的所有配置,不确定是我配置的有问题,还是其他地方出了问题,只要运行起来,刚开始可以爬到一些代理IP并存入数据库里,然后就开始自动进入我自己的爬虫程序。 > > ``` > > BOT_NAME = 'CommoditySpider' > > SPIDER_MODULES = ['CommoditySpider.spiders'] > NEWSPIDER_MODULE = 'CommoditySpider.spiders'...
创建 scrapy 项目,可以在CMD终端下执行命令: scrapy startproject 项目名 上面的截图,是我自己基于scrapy 框架进行二次开发的
subscriptable 是下标的意思,这里表示的错误。应该是数据库中没有代理地址,导致获取出来的 data列表为空
这里可以看下打印的日志以及数据库中的数据,是否有ip地址
> 现在爬取应该是全量爬取的吧?有没有办法全量爬取一次后以后都增量爬取呢? 如果后面想增量爬虫, 如果对抓取数据做下更新时间标记 time,然后定时去抓取时间比time晚的页面数据就行
请问如何限制爬取电影的数量呢? --------------------------------------- @young2333 限制爬取电影数量,这个需要对代码进行改造下。大体思路是:`TopWorkThread` 类中增加判断 `TaskQueue` 中的 ` contentQueue ` 的大小逻辑。因为程序用到多线程,需要要考虑到线程安全,建议加个 锁。 另外补充下这几个类的作用: - `middleQueue` middleQueue 是一个队列,里面存放着带有电影详情页的电影分页的 url 地址。每个 url 地址(电影分页)有 25 部电影。 - `TopWorkThread` TopWorkThread 的作用是依次从 middleQueue 中的获取一个 url...
@luokl2019 本项目是默认保存到 Sqlite 数据库中,你可以根据自己需要,将 Sqlite 数据库连接换成 Mysql 数据库
是的,检索完网站所有的信息,才会入库。我记得运行一次大概要1-2小时。其实代码可以优化下,做断点续传功能,即定时存储到数据库。