juicy-bigdata
juicy-bigdata copied to clipboard
🎉🎉🐳 Datawhale大数据处理导论教程 | 大数据技术方向的开篇课程🎉🎉
妙趣横生大数据 Juicy Big Data
本项目《妙趣横生大数据》是Datawhale:whale:大数据技术相关内容的导论课程。
当今的时代处处充斥着大数据的影子,大数据技术也为信息技术发展带来了重大的变革,并深刻影响着人们生活的方方面面。而我们旨在带领大家走进大数据时代的浪潮中,理解并能够使用目前主流的大数据处理架构Hadoop解决相应的问题,从小白到实践者。
食用方法
:whale: 推荐使用 Big Data Github在线阅读 或 Big Data Gitee在线阅读 进行学习。
有配套代码的章节,可以在项目experiments目录的相应章节目录下面找到。
以下是目录,还等什么,学就完事了~
大数据处理技术导论目录
- 第一章:大数据概述
- [x] 1.1 大数据时代
- [x] 1.2 大数据的概念
- [x] 1.3大数据的应用
- [x] 1.4 大数据关键技术
- 第二章:Hadoop
- [x] 2.0 Hadoop的前世今生
- [x] 2.1 概述
- [x] 2.3 Hadoop的安装与使用
- [x] 2.4 本章小结
- 第三章:HDFS
- [x] 3.0 产生的背景
- [x] 3.1 概述
- [x] 3.2 HDFS的体系结构
- [x] 3.3 HDFS的存储原理
- [x] 3.4 HDFS的数据读写过程
- [x] 3.5 HDFS编程实战
- [x] 3.6 本章小结
- 第四章:HBase
- [x] 4.0 产生的背景
- [x] 4.1 概述
- [x] 4.2 HBase 数据模型
- [x] 4.3 HBase 的实现原理
- [x] 4.4 HBase 运行机制
- [x] 4.5 HBase 编程实战
- [x] 4.6 本章小结
- 第五章:MapReduce
- [x] 5.0 洋葱辣椒酱与MapReduce
- [x] 5.1 概述
- [x] 5.2 MapReduce的工作流程
- [x] 5.3 以Wordcount为例理解MapReduce
- [x] 5.4 本章小结
- 第六章:Hive
- [x] 6.0 数据仓库
- [x] 6.1 Hive 基本概念
- [x] 6.2 Hive 核心概念
- [x] 6.3 Hive 系统结构
- [x] 6.4 Hive 编程实战
- [x] 6.5 本章小结
- 第七章:Spark
- [x] 7.0 引言
- [x] 7.1 Spark 概述
- [x] 7.2 Spark 编程模型
- [x] 7.4 Spark 编程实战
- [x] 7.5 本章小结
- 第八章:大数据处理技术总结
- [x] 8.1 大数据技术框架综述
- [x] 8.2 大数据分析引擎的发展简史
- [x] 8.3 尾声
第二章以后的章节都配置有实验内容,使用Linux操作系统进行编程实战。
课程收获
通过本教程的学习,你将能够学习到:
- 了解并描述大数据技术的应用场景,真实世界的大数据问题和方法的例子。
- 解释大数据4V的特性以及各种特性如何影响到数据的收集、监控、存储、分析和报告的方方面面。
- 识别大数据问题,并能够将问题转化为数据科学问题。
- 总结HDFS文件系统和MapReduce编程模型的特点和意义,以及它们与大数据的关系。
- 识别和利用数据科学生命周期和相关数据流中的各种组件,如HBase,Hive等。
参考教程
- 《大数据处理技术原理与应用 第三版》——林子雨
- Big Data US SanDiego
- 《Hadoop权威指南》
- 《Hive编程指南》
- 《维度建模权威指南(第3版)》
- 《大数据处理之道》
- 《Spark快速大数据分析》
环境安装
- Java 8
- Hadoop 3.1.1
- HBase 2.3.5 or 2.4.8
- Mysql 8.0.27
- Hive 2.3.9
- Spark 3.2.0
安装包下载地址:https://datawhale.feishu.cn/drive/folder/fldcnvODsgRWbyqVW9ApavEVEJg 密码: hO38
致谢
感谢以下Datawhale成员对项目推进作出的贡献(排名不分先后):
| 成员 | 个人简介及贡献 | 个人主页 |
|---|---|---|
| 沈豪 | 复旦大学网安博士在读,项目负责人,参与前五章内容构建 | 知乎, Github |
| 刘洋 | 中科院数学与系统科学研究院研究生,Datawhale成员,主要贡献者 | 知乎, Github |
| 王洲烽 | 太原理工大学数据科学与大数据技术本科生,Datawhale成员,主要贡献者 | CSDN, Github |
| 王嘉鹏 | 小米大数据开发工程师,Datawhale成员,主要贡献者 | CSDN, Github |
| 胡锐锋 | 国网大数据平台研发工程师,Datawhale成员,主要贡献者 | Github |
关注我们
扫描下方二维码关注公众号:Datawhale
LICENSE
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。