ChineseStarsRelationship icon indicating copy to clipboard operation
ChineseStarsRelationship copied to clipboard

中国明星数据爬取。你甚至可以拿到互联网上所有的人之间的关系,接下来你可以自己发挥!基于这些数据,你可以完成更多有趣的事情。比如说社交网络分析,关系网络可视化,算法研究,和其他有意思的事情。Chinese star...

中国明星数据爬取

目标

代码没有技术含量,仅仅告诉大家一个好的数据源!

爬取网络上的数据,建立一个完整的人物关系网。这里是爬取数据的部分,使用了jsoup就可以了,主要还是网站比较好。

时效性

2017年还有效。由于互动百科网站的页面结构改变,可能会影响爬虫的正常工作,后续不在维护其可用性,想下载数据的直接在release中进行下载。

方法

深度优先爬取,直到队列没有种子。暂时没有使用多线程。

举例

http://www.baike.com/wiki/%E5%91%A8%E6%9D%B0%E4%BC%A6里有完整的关系网络信息,简单解析一下就好啦。

结果展示

爬取得过程(log4j的日志)

图片展示

结果(尚未爬取结束)