douban_movie_review icon indicating copy to clipboard operation
douban_movie_review copied to clipboard

豆瓣Top250影评爬虫(用于情感分析语料)

douban_movie_review

豆瓣Top250电影影评排行榜爬虫

结果保存为./data/review.csv,第一列为0或1(好评,差评),第二列为评论内容。

在默认频率下运行大约1小时会反爬虫,大约会抓到18000条,可以更换代理解决。

运行时首先获取Top250的ID列表,保存在./data/top.txt下。

// 获取豆瓣Top250电影ID
scrapy crawl top
// 抓取豆瓣Top250电影影评
scrapy crawl douban