repository

Stargazers over time

概述

个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
在线文档

RoadMap

roadMap

基础能力

数据结构

分布式理论

分布式架构

计算机理论

LSM存储模型

Scala

ScalaOverView

JVM

Java

并发编程

认识并发编程
并发工具包

JDK源码

todo

算法

算法题解

BigData

cache

数据编排技术

alluxio

Alluxio概览
Alluxio部署
Alluxio整合计算引擎

datalake

hudi

quick start

Hudi概览
Hudi整合Spark
Hudi整合Flink
Hudi调优实践
Hudi原理分析
hudi数据湖实践

doc with source

配合官方文档和源码带从0到1学习hudi

Timeline
TableType

article

Flink基于Apache Hudi+Alluxio的数据湖实践
Apache Hudi在LakeHouse趋势下的优势

iceberg

IceBerg概览
IceBerg整合Flink
IceBerg整合Hive
IceBerg整合Spark

kvstore

K-V结构存储,如Hbase、RocksDb(内嵌KV存储)等

rocksDB

rocksDB概述
rocksDB配置
rocksDB组件描述
rocksdb on flink
rocksdb API

HBase

HBase概览
HBaseShell
HBaseJavaAPI
HBase整合MapReduce
HBase过滤器

Hadoop

广义上的Hadoop生态圈的学习笔记，主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。

HDFS

Hadoop快速入门
HDFSOverView
Hadoop广义生态系统
Hadoop高可用配置
HadoopCommon分析
HDFS集群相关管理
HDFS Shell

MapReduce

分布式处理框架MapReduce
MapReduce概览
MapReduce调优
MapReduce数据相关操作
MapReduce输入输出剖析
MapReduce的工作机制

Yarn

Yarn快速入门

生产配置

Hadoop高可用配置
Hadoop生产相关配置

Engine

计算引擎相关，主要包含Flink、Spark等

Flink

主要包含对Flink文档阅读的总结和相关Flink源码的阅读，以及Flink新特性记录等等

Core

FlinkOverView
CheckPoint机制
TableSQLOverview
DataStream API
ProcessFunction API
Data Source
Table API
Flink SQL
Flink Hive
Flink CEP
Flink Function
DataSource API

SourceCode

FlinkCheckpoint源码分析
FlinkSQL源码解析
Flink内核源码分析
Flink网络流控及反压
TaskExecutor内存模型原理深入
Flink窗口实现应用
Flink运行环境源码解析
FlinkTimerService机制分析
StreamSource源解析
Flink状态管理与检查点机制

Book

Flink内核原理与实现

1-3章读书笔记
第4章时间与窗口
5-6章读书笔记
第7章状态原理
第8章作业提交
第9章资源管理
第10章作业调度
第11-13章Task执行数据交换等

Feature

Flink1.12新特性
Flink1.13新特性
Flink1.14新特性

Practice

Flink踩坑指南
记录一次Flink反压问题
Flink SQL实践调优
Flink On K8s实践

Connector

自定义Table Connector

monitor

搭建Flink任务指标监控系统

Spark

主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。

Spark基础入门
SparkOnDeploy
Spark调度系统
Spark计算引擎和Shuffle
Spark存储体系
Spark大数据处理读书笔记

Spark Core

SparkCore
SparkOperator
SparkConnector

Spark SQL

SparkSQLAPI
SparkSQL
SparkSQL API
SparkSQL优化分析

Spark Practice

Spark生产实践

Spark Streaming

SparkStreaming
SparkStreaming整合Flume

源码解析

从浅到深剖析Spark源码
源码分析系列

Collect

数据采集框架，主要包含Binlog增量与SQL快照方式框架

Canal

CanalOverView

Debezium

DebeziumOverView
Debezium踩坑
Debezium监控系统搭建
Debezium使用改造

Flume

Flume快速入门
Flume对接Kafka

Sqoop

SqoopOverview
Sqoop实战操作

MQ

消息中间件相关，主要包含大数据中使用比较多的Kafka和Pulsar

Kafka

kafka概览
基本概念
kafka监控
生产者源码剖析
消费者源码剖析
kafkaShell
kafka权威指南读书笔记
深入理解Kafka读书笔记

Pulsar

快速入门
原理与实践

Zookeeper

Zookeeper原理和参数配置
Zookeeper操作与部署

schedule

Azkaban

Azkaban生产实践

DolphinScheduler

DolphinScheduler快速开始

olap

主要核心包含Kudu、Impala相关Olap引擎，生产实践及论文记录等。

Hive

HiveOverwrite
Hive SQL
Hive调优指南
Hive踩坑解决方案
Hive编程指南读书笔记
Hive Shell Beeline
Hive分区表和分桶表

Presto

presto概述

clickhouse

ClickHouse快速入门
ClickHouse表引擎

Druid

Druid概述

Kylin

Kylin概述

Kudu

KuduOverView
Kudu表和Schema设计
KuduConfiguration
Kudu原理分析
Kudu踩坑
Kudu存储结构架构图
Kudu生产实践

paper

Kudu论文阅读

Impala

ImpalaOverView
ImpalaSQL
Impala操作KUDU
Impala生产实践

graph

图库相关

nebula graph

1.简介
2.快速入门

tools

工具集相关，包含计算平台、sql语法Tree等

zeppelin

zeppelin

SQL语法树

calcite

ApacheCalciteOverView

数据仓库建设

理论

数据建模
数据仓库建模
数据仓库

数据中台设计

数据中台设计
thoth自研元数据平台设计

方案实践

Kudu数据冷备
基于Flink的实时数仓建设

读书笔记

数据中台读书笔记

devops

shell命令
Linux命令
openshift基础命令

maven

maven骨架制作
maven命令

服务监控

Prometheus

mac

iterm2

贡献方式

欢迎通过Gitter参与贡献
贡献者指南

bigdata-growth bigdata-growth copied to clipboard

Metadata