bigdata-growth
bigdata-growth copied to clipboard
大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

repository
概述
- 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
- 在线文档
RoadMap

基础能力
数据结构
分布式理论
- 分布式架构
计算机理论
- LSM存储模型
Scala
- ScalaOverView
JVM
Java
并发编程
- 认识并发编程
- 并发工具包
JDK源码
todo
算法
- 算法题解
BigData
cache
数据编排技术
alluxio
- Alluxio概览
- Alluxio部署
- Alluxio整合计算引擎
datalake
hudi
quick start
- Hudi概览
- Hudi整合Spark
- Hudi整合Flink
- Hudi调优实践
- Hudi原理分析
- hudi数据湖实践
doc with source
配合官方文档和源码带从0到1学习hudi
- Timeline
- TableType
article
- Flink基于Apache Hudi+Alluxio的数据湖实践
- Apache Hudi在LakeHouse趋势下的优势
iceberg
- IceBerg概览
- IceBerg整合Flink
- IceBerg整合Hive
- IceBerg整合Spark
kvstore
K-V结构存储,如Hbase、RocksDb(内嵌KV存储)等
rocksDB
- rocksDB概述
- rocksDB配置
- rocksDB组件描述
- rocksdb on flink
- rocksdb API
HBase
- HBase概览
- HBaseShell
- HBaseJavaAPI
- HBase整合MapReduce
- HBase过滤器
Hadoop
广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。
HDFS
- Hadoop快速入门
- HDFSOverView
- Hadoop广义生态系统
- Hadoop高可用配置
- HadoopCommon分析
- HDFS集群相关管理
- HDFS Shell
MapReduce
- 分布式处理框架MapReduce
- MapReduce概览
- MapReduce调优
- MapReduce数据相关操作
- MapReduce输入输出剖析
- MapReduce的工作机制
Yarn
- Yarn快速入门
生产配置
- Hadoop高可用配置
- Hadoop生产相关配置
Engine
计算引擎相关,主要包含Flink、Spark等
Flink
- 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等
Core
- FlinkOverView
- CheckPoint机制
- TableSQLOverview
- DataStream API
- ProcessFunction API
- Data Source
- Table API
- Flink SQL
- Flink Hive
- Flink CEP
- Flink Function
- DataSource API
SourceCode
- FlinkCheckpoint源码分析
- FlinkSQL源码解析
- Flink内核源码分析
- Flink网络流控及反压
- TaskExecutor内存模型原理深入
- Flink窗口实现应用
- Flink运行环境源码解析
- FlinkTimerService机制分析
- StreamSource源解析
- Flink状态管理与检查点机制
Book
Flink内核原理与实现
- 1-3章读书笔记
- 第4章时间与窗口
- 5-6章读书笔记
- 第7章状态原理
- 第8章作业提交
- 第9章资源管理
- 第10章作业调度
- 第11-13章Task执行数据交换等
Feature
- Flink1.12新特性
- Flink1.13新特性
- Flink1.14新特性
Practice
- Flink踩坑指南
- 记录一次Flink反压问题
- Flink SQL实践调优
- Flink On K8s实践
Connector
- 自定义Table Connector
monitor
- 搭建Flink任务指标监控系统
Spark
主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。
- Spark基础入门
- SparkOnDeploy
- Spark调度系统
- Spark计算引擎和Shuffle
- Spark存储体系
- Spark大数据处理读书笔记
Spark Core
- SparkCore
- SparkOperator
- SparkConnector
Spark SQL
- SparkSQLAPI
- SparkSQL
- SparkSQL API
- SparkSQL优化分析
Spark Practice
- Spark生产实践
Spark Streaming
- SparkStreaming
- SparkStreaming整合Flume
源码解析
- 从浅到深剖析Spark源码
- 源码分析系列
Collect
数据采集框架,主要包含Binlog增量与SQL快照方式框架
Canal
- CanalOverView
Debezium
- DebeziumOverView
- Debezium踩坑
- Debezium监控系统搭建
- Debezium使用改造
Flume
- Flume快速入门
- Flume对接Kafka
Sqoop
- SqoopOverview
- Sqoop实战操作
MQ
消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar
Kafka
- kafka概览
- 基本概念
- kafka监控
- 生产者源码剖析
- 消费者源码剖析
- kafkaShell
- kafka权威指南读书笔记
- 深入理解Kafka读书笔记
Pulsar
- 快速入门
- 原理与实践
Zookeeper
- Zookeeper原理和参数配置
- Zookeeper操作与部署
schedule
Azkaban
- Azkaban生产实践
DolphinScheduler
- DolphinScheduler快速开始
olap
主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。
Hive
- HiveOverwrite
- Hive SQL
- Hive调优指南
- Hive踩坑解决方案
- Hive编程指南读书笔记
- Hive Shell Beeline
- Hive分区表和分桶表
Presto
- presto概述
clickhouse
- ClickHouse快速入门
- ClickHouse表引擎
Druid
- Druid概述
Kylin
- Kylin概述
Kudu
- KuduOverView
- Kudu表和Schema设计
- KuduConfiguration
- Kudu原理分析
- Kudu踩坑
- Kudu存储结构架构图
- Kudu生产实践
paper
- Kudu论文阅读
Impala
- ImpalaOverView
- ImpalaSQL
- Impala操作KUDU
- Impala生产实践
graph
图库相关
nebula graph
- 1.简介
- 2.快速入门
tools
工具集相关,包含计算平台、sql语法Tree等
zeppelin
- zeppelin
SQL语法树
calcite
- ApacheCalciteOverView
数据仓库建设
理论
- 数据建模
- 数据仓库建模
- 数据仓库
数据中台设计
- 数据中台设计
- thoth自研元数据平台设计
方案实践
- Kudu数据冷备
- 基于Flink的实时数仓建设
读书笔记
- 数据中台读书笔记
devops
- shell命令
- Linux命令
- openshift基础命令
maven
- maven骨架制作
- maven命令
服务监控
- Prometheus
mac
- iterm2
贡献方式
- 欢迎通过Gitter参与贡献
- 贡献者指南
技术分享
