TumblrSpider icon indicating copy to clipboard operation
TumblrSpider copied to clipboard

汤很热

一个汤不热的爬虫

环境

使用 Python 3:
pip install -r requirements.txt

若系统默认 Python 2,请使用以下命令: python -m pip install -r requirements.txt

初始化数据库

python build.py

添加来源

在爬虫没启动时,添加进 source.txt
位于前面的会优先被爬取,可以自行调整顺序。

爬取数据

python update.py

python update.py 10 开 10 个奴隶

下载爬取的 url (TODO)

python upgrade.py

python upgrade.py 20 开 20 个奴隶

查看数据库

Windows

sqlite3.exe data.db

TODO LIST

  • [x] 爬取 photo 和 video 的 url
  • [x] 下载已爬取的 url
  • [ ] 剔除重复 post(或追踪到原 post)
  • [ ] 统计欢迎度(thanks to watsy0007
  • [ ] 搞个 ORM 框架,解决下数据库锁的问题