UFC_Client icon indicating copy to clipboard operation
UFC_Client copied to clipboard

爬虫获取某MMA网站,获取所有赔率数据-仅做学习使用。

技术栈:jsoup+htmlunit

从零开始,基于面向对象的设计,爬取到整个MMA网站赔率信息。

htmlunit--java的无头浏览器

jsoup html分析工具

隐藏了具体网站的地址,谢谢理解。

难点:1.面向对象的设计(如何包装数据,这个花了很长时间思考) 2.网站数据规则分析(数据获取非常容易,但是具体怎么抓取,然后如何放是难题) 3.获取隐藏js事件触发的数据内容。(这个数据必须借助无头浏览器,模拟实际操作,包括点击,录入等)
4.多线程加快爬取速度。

接口演示:(浏览器输入访问即可-一次性返回了所有数据,仅限学习,谢谢)
http://111.231.255.29:8099/client/getUFCDate

 [由于网站页面规则再变动,目前需要调整抓取-以后再更新]