toutiao
toutiao copied to clipboard
今日头条科技新闻接口爬虫
今日头条爬虫
- 1.代码基于python的scrapy爬虫框架。爬取url保存在Redis,爬取数据主要保存在MongoDB
- 2.依赖模块有pymongo,scrapy-redis,scrapy,redis,通过以下命令安装:
$ pip install pymongo scrapy scrapy-redis redis
- 使用方法:下载项目以后,进入项目根文件夹,运行:
$ scrapy crawl toutiao