salamer/gter_bbs_spider: a asyn spider for a forum

##留学论坛爬虫

这个爬虫，我主要是爬去一个留学论坛，这次爬取的是北美的offer结果版面，他的页面是这样的：

爬虫使用了gevent异步进行，使用mongodb做最后的数据库存储，然后将内容导出成csv文件

爬取下来的数据是：go_america_to_study_data.csv文件，希望大家好好利用好

###usage

安装mongodb：

MacOS:

brew install mongodb

Linux:

Ubuntu/debian:

sudo apt-get install mongodb

CentOS:

sudo yum install mongodb

安装 python包依赖：

pip install -r requirements.txt

然后你去config.py，修改你的开始页面的url和页码，非常简单的配置，还有配置你的mongodb的collection名称

然后执行：

python engine.py

将Mongodb内的数据导出成CSV:

python dbToCsv.py

即可

PS:我用的最低配的阿里云好像跑了一个小时，所以有兴趣的同学可以使用multiprocess进行多进程爬取，主要是我的硬件水平低，没办法

###data analysis

我之后使用R语言对csv文件进行了最简单的处理，发现申请的大学，越好城市的申请的越多，然后本科院校一般也是985，211居多，最后是申请的学位还说ms好申，并且申请专业的前三是化学，经济学，和计算机，可见难度非常大

gter_bbs_spider
gter_bbs_spider copied to clipboard