bigdata-growth icon indicating copy to clipboard operation
bigdata-growth copied to clipboard

大数据知识仓库涉及到数据仓库建模、实时计算、大数据、数据中台、系统设计、Java、算法等。

img.png

repository

License

Stargazers over time

概述

  • 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。
  • 在线文档

RoadMap

roadMap

基础能力

数据结构

分布式理论

  • 分布式架构

计算机理论

  • LSM存储模型

Scala

  • ScalaOverView

JVM

Java

并发编程

  • 认识并发编程
  • 并发工具包

JDK源码

todo

算法

  • 算法题解

BigData

cache

数据编排技术

alluxio

  • Alluxio概览
  • Alluxio部署
  • Alluxio整合计算引擎

datalake

hudi

quick start
  • Hudi概览
  • Hudi整合Spark
  • Hudi整合Flink
  • Hudi调优实践
  • Hudi原理分析
  • hudi数据湖实践
doc with source

配合官方文档和源码带从0到1学习hudi

  • Timeline
  • TableType
article
  • Flink基于Apache Hudi+Alluxio的数据湖实践
  • Apache Hudi在LakeHouse趋势下的优势

iceberg

  • IceBerg概览
  • IceBerg整合Flink
  • IceBerg整合Hive
  • IceBerg整合Spark

kvstore

K-V结构存储,如Hbase、RocksDb(内嵌KV存储)等

rocksDB

  • rocksDB概述
  • rocksDB配置
  • rocksDB组件描述
  • rocksdb on flink
  • rocksdb API

HBase

  • HBase概览
  • HBaseShell
  • HBaseJavaAPI
  • HBase整合MapReduce
  • HBase过滤器

Hadoop

广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。

HDFS

  • Hadoop快速入门
  • HDFSOverView
  • Hadoop广义生态系统
  • Hadoop高可用配置
  • HadoopCommon分析
  • HDFS集群相关管理
  • HDFS Shell

MapReduce

  • 分布式处理框架MapReduce
  • MapReduce概览
  • MapReduce调优
  • MapReduce数据相关操作
  • MapReduce输入输出剖析
  • MapReduce的工作机制

Yarn

  • Yarn快速入门

生产配置

  • Hadoop高可用配置
  • Hadoop生产相关配置

Engine

计算引擎相关,主要包含Flink、Spark等

Flink

  • 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等
Core
  • FlinkOverView
  • CheckPoint机制
  • TableSQLOverview
  • DataStream API
  • ProcessFunction API
  • Data Source
  • Table API
  • Flink SQL
  • Flink Hive
  • Flink CEP
  • Flink Function
  • DataSource API
SourceCode
  • FlinkCheckpoint源码分析
  • FlinkSQL源码解析
  • Flink内核源码分析
  • Flink网络流控及反压
  • TaskExecutor内存模型原理深入
  • Flink窗口实现应用
  • Flink运行环境源码解析
  • FlinkTimerService机制分析
  • StreamSource源解析
  • Flink状态管理与检查点机制
Book
Flink内核原理与实现
  • 1-3章读书笔记
  • 第4章时间与窗口
  • 5-6章读书笔记
  • 第7章状态原理
  • 第8章作业提交
  • 第9章资源管理
  • 第10章作业调度
  • 第11-13章Task执行数据交换等
Feature
  • Flink1.12新特性
  • Flink1.13新特性
  • Flink1.14新特性
Practice
  • Flink踩坑指南
  • 记录一次Flink反压问题
  • Flink SQL实践调优
  • Flink On K8s实践
Connector
  • 自定义Table Connector
monitor
  • 搭建Flink任务指标监控系统

Spark

主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。

  • Spark基础入门
  • SparkOnDeploy
  • Spark调度系统
  • Spark计算引擎和Shuffle
  • Spark存储体系
  • Spark大数据处理读书笔记
Spark Core
  • SparkCore
  • SparkOperator
  • SparkConnector
Spark SQL
  • SparkSQLAPI
  • SparkSQL
  • SparkSQL API
  • SparkSQL优化分析
Spark Practice
  • Spark生产实践
Spark Streaming
  • SparkStreaming
  • SparkStreaming整合Flume
源码解析
  • 从浅到深剖析Spark源码
  • 源码分析系列

Collect

数据采集框架,主要包含Binlog增量与SQL快照方式框架

Canal

  • CanalOverView

Debezium

  • DebeziumOverView
  • Debezium踩坑
  • Debezium监控系统搭建
  • Debezium使用改造

Flume

  • Flume快速入门
  • Flume对接Kafka

Sqoop

  • SqoopOverview
  • Sqoop实战操作

MQ

消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar

Kafka

  • kafka概览
  • 基本概念
  • kafka监控
  • 生产者源码剖析
  • 消费者源码剖析
  • kafkaShell
  • kafka权威指南读书笔记
  • 深入理解Kafka读书笔记

Pulsar

  • 快速入门
  • 原理与实践

Zookeeper

  • Zookeeper原理和参数配置
  • Zookeeper操作与部署

schedule

Azkaban

  • Azkaban生产实践

DolphinScheduler

  • DolphinScheduler快速开始

olap

主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。

Hive

  • HiveOverwrite
  • Hive SQL
  • Hive调优指南
  • Hive踩坑解决方案
  • Hive编程指南读书笔记
  • Hive Shell Beeline
  • Hive分区表和分桶表

Presto

  • presto概述

clickhouse

  • ClickHouse快速入门
  • ClickHouse表引擎

Druid

  • Druid概述

Kylin

  • Kylin概述

Kudu

  • KuduOverView
  • Kudu表和Schema设计
  • KuduConfiguration
  • Kudu原理分析
  • Kudu踩坑
  • Kudu存储结构架构图
  • Kudu生产实践
paper
  • Kudu论文阅读

Impala

  • ImpalaOverView
  • ImpalaSQL
  • Impala操作KUDU
  • Impala生产实践

graph

图库相关

nebula graph

  • 1.简介
  • 2.快速入门

tools

工具集相关,包含计算平台、sql语法Tree等

zeppelin

  • zeppelin

SQL语法树

calcite
  • ApacheCalciteOverView

数据仓库建设

理论

  • 数据建模
  • 数据仓库建模
  • 数据仓库

数据中台设计

  • 数据中台设计
  • thoth自研元数据平台设计

方案实践

  • Kudu数据冷备
  • 基于Flink的实时数仓建设

读书笔记

  • 数据中台读书笔记

devops

  • shell命令
  • Linux命令
  • openshift基础命令

maven

  • maven骨架制作
  • maven命令

服务监控

  • Prometheus

mac

  • iterm2

贡献方式

  • 欢迎通过Gitter参与贡献
  • 贡献者指南

技术分享