job-spider
job-spider copied to clipboard
多线程爬取互联网行业常用招聘网站
招聘网站爬虫
可爬取各大互联网行业常用招聘网站,采集职位主要信息输出到 csv 文件;
爬虫和文件写入独立两个进程,进程A对每个网站的爬虫启动多线程,每个爬虫以生成器方式迭代返回数据,通过队列传输给进程B进行写入;
注意:本爬虫仅供学习交流,请勿将爬取数据进行非法使用。
运行环境
- Python 3
- requests
- lxml
运行方式
方法一:使用命令行参数
$ python3 run.py -j 后端 -c 北京
方法二:直接运行,根据提示输入参数
$ python3 run.py
请输入职业:后端
请输入城市:北京
配置
如果想自定义爬虫,可添加在spider.py
末尾定义爬虫类,需要继承BaseSpider
基类和关联SpiderMeta
元类,
并且需要实现crawl
方法迭代返回爬取数据,数据内容请参照已有爬虫类。