BigData
BigData copied to clipboard
小白大数据学习笔记 :star:
BigData
小白大数据学习笔记 :star:
一、Hadoop

| 模块 | Blog |
|---|---|
| Hadoop概述 | 关于Hadoop你应该了解这些! |
| 搭建Hadoop运行环境 | 准备三台CentOS虚拟机 |
| 安装Java、Hadoop以及编写集群分发脚本 | |
| 重头戏:配置Hadoop集群 | |
| 群起集群并进行测试 | |
| 编写Hadoop集群启停脚本以及查看集群Java进程脚本 | |
| HDFS | HDFS是个什么东西? |
| HDFS常用Shell命令图文详解 | |
| 搭建HDFS客户端API环境 | |
| HDFS API操作详解.md | |
| HDFS读写流程图文详解 | |
| HDFS NameNode和SecondaryNameNode工作机制 | |
| HDFS DataNode工作机制 | |
| MapReduce | MapReduce概述及核心编程思想 |
| 图解MapReduce编程规范 | |
| MapReduce WordCount案例实操 | |
| MapReduce 序列化 | |
| MapReduce InputFormat 数据输入 框架原理 | |
| MapReduce Shuffle机制之Partition分区 | |
| MapReduce Shuffle机制之WritableComparable排序 | |
| MapReduce Shuffle机制之Combiner合并 | |
| MapReduce OutputFormat数据输出 框架原理 | |
| MapReduce MapTask与ReduceTask工作机制 | |
| MapReduce Join应用 | |
| MapReduce ETL数据清洗 案例实操 | |
| MapReduce 数据压缩 | |
| Yarn | Yarn 基础架构、工作机制及作业提交全过程 |
二、Zookeeper
| 模块 | Blog |
|---|---|
| Zookeeper概述 | Zookeeper是个什么东西? |
| 安装部署 | Zookeeper 分布式安装部署 |
| 如何操作? | Zookeeper 客户端命令行与API操作 |
| 案例实操 | Zookeeper 案例:服务器动态上下线监听 |
三、Hive
| 模块 | Blog |
|---|---|
| Hive概述 | Hive的基本概念 |
| 安装部署 | Hive安装部署并替换derby为MySQL |
| Hive操作数据 | Hive数据类型 |
| HiveSQL DDL数据定义 | |
| Hive 导入与导出数据 | |
| HiveSQL DML数据查询 | |
| Hive 分区表与分桶表 | |
| Hive 常用函数汇总以及练习 | |
| Hive 如何自定义函数 | |
| Hive 压缩和存储 | |
| 调优 | Hive企业级调优 |
| 实战 | Hive 实战!分析视频网站TopN数据 |
四、Flume
| 模块 | Blog |
|---|---|
| Flume概述 | Flume 是什么?都由什么组成? |
| 安装部署以及入门案例 | Flume 分布式安装部署以及入门案例 |
| 内部原理 | Flume中的事务、Agent内部原理、拓扑结构及对应案例 |
| 自定义组件 | Flume自定义Interceptor、Source与Sink |
五、Kafka
| 模块 | Blog |
|---|---|
| Kafka极速入门 | Kafka 是个什么东西? |
| Kafka 分布式安装部署 | |
| Kafka 常用命令行操作 | |
| Kafka Producer | Producer 生产者消息发送原理 |
| Producer 异步与同步以及分区API操作 | |
| Producer 生产者的生产经验 | |
| Kafka Broker | Broker 工作流程以及节点服役和退役 |
| Broker 副本机制详解 | |
| Broker 文件存储、清理机制以及高效读写数据 | |
| Kafka Consumer | Consumer 消费者工作原理 |
| Consumer 消费者API操作 | |
| Consumer 消费者组分区的分配以及再平衡 | |
| Offset位移详解 | |
| 大屏监控Kafka | Kafka Eagle(EFAK)监控安装部署 |
| Kafka-Kraft | Kafka-Kraft 模式的安装与部署 |
| Kafka 与外部系统集成 | Kafka集成Flume |
| Kafka集成Spark,留坑 | |
| Kafka集成Flink,留坑 | |
| Kafka集成Spring Boot,留坑 |
六、HBase
| 模块 | Blog |
|---|---|
| 概述 | 关于HBase你应该知道这些! |
| 上手操作HBase | 搭建HBase分布式环境 |
| HBase Shell操作快速入门! | |
| HBase DDL API操作 | |
| HBase DML API操作 | |
| 在更! |
七、Spark(Scala版)
| 模块 | Blog |
|---|---|
| Spark 前戏 | Spark 之前一定要会的Scala! |
| Spark 极速入门 | Spark 概述及WordCount案例 |
| Spark 搭建Local、StandAlone、Yarn三种模式运行环境 | |
| Spark Core | 如何做到分布式计算? |
| Java IO流与Spark RDD至简的关系 | |
| Spark RDD是啥?及其执行原理 | |
| Spark 创建RDD以及设置它的并行度与分区 | |
| Spark RDD转换算子速查手册以及案例解析 | |
| Spark RDD行动算子速查手册以及案例解析 | |
| Spark RDD序列化 | |
| Spark RDD依赖关系 | |
| Spark RDD持久化 | |
| Spark RDD分区器 | |
| Spark 累加器与广播变量 | |
| Spark Core 案例实操——分析电商网站行为数据 | |
| Spark SQL | SparkSQL 概述、DataFrame、DataSet |
| SparkSQL 用户自定义函数 | |
| SparkSQL 数据的加载和保存 | |
| Spark Streaming | 待更 |
项目实战
1、电商数仓
| 模块 | Blog |
|---|---|
| 用户行为数据采集平台 | 项目需求及架构设计 |
| 模拟生成用户行为日志数据 | |
| 打通行为日志采集通道! | |
| 业务数据采集平台 | 模拟生成用户业务数据 |
| 全量同步?增量同步?都是什么? | |
| 数据全量同步工具DataX | |
| 数据增量同步工具Maxwell | |
| 打通全量数据同步通道! |