weibo_crawler

本工具使用模拟登录来实现微博搜索结果的爬取，如果用户需要爬取更多的数据，请在weibo_zhanghao.txt中添加微博帐号的用户名密码（可以注册小号)，每一行一个账户，用户名和密码用逗号隔开。希望更多的使用者能贡献注册的小号，这样能方便大家的爬取

环境要求

Python

系统中需要先安装Python，这是Python官网链接http://www.python.org
BeautifulSoup

BeautifulSoup是Python的一个html解析库，用来解析微博搜索结果中相关信息，版本是BeautifulSoup4, 安装方法可自行百度

有关BeautifulSoup的更多信息，请访问http://www.crummy.com/software/BeautifulSoup
mysql-python

访问mysql数据库的python模块，Ubuntu下安装方法见：http://www.cnblogs.com/meibenjin/archive/2012/12/04/2801699.html

使用

将要查询的关键词添加到keywords文件中，并启动程序

    python ./Crawler.py

工具提供两种保存方法，保存文件或写入数据库，通过修改weibo.ini实现

1. 数据库：将weibo.ini中的enable字段设置为True,并设置数据库连接信息。表结构分别在WeiboContent.py和UserInfo.py的开头
2. 文件：设置enable字段为False，则默认写入文件，分别为user\_info和weibo\_info

关于爬取时间间隔

微博爬取中，如果爬取过快，会导致帐号被封，需要输入验证码，因此，工具里面每爬取一页会有一定时间休眠，在类SinaSearchCrawler的randomSleep和randomSnap中，每爬取一页，randomSnap一次，如果出现帐号被封，则会randomSleep，时间较长，唤醒后会切换帐号重新爬取每个页面默认重试3次

注意

该工具是在Linux下开发，所有文件以及程序都采用UTF-8编码，如果要在其他环境下运行，请注意修改相应的编码，强烈建议在Linux环境下运行

weibo_crawler
weibo_crawler copied to clipboard

Metadata

weibo_crawler

环境要求

使用

关于爬取时间间隔

注意

← Metadata

Owner

Metadata

weibo_crawler weibo_crawler copied to clipboard

Metadata

weibo_crawler

环境要求

使用

关于爬取时间间隔

注意

← Metadata

Owner

Metadata

weibo_crawler
weibo_crawler copied to clipboard