dpkb icon indicating copy to clipboard operation
dpkb copied to clipboard

大数据相关内容汇总,包括分布式存储引擎、分布式计算引擎、数仓建设等。关键词:Hadoop、HBase、ES、Kudu、Hive、Presto、Spark、Flink、Kylin、ClickHouse

DPKB

大数据相关文章汇总(知识库) 持续更新中(2022-08)

一、开源组件

Hadoop

1)官网、社区、博客

Hive

1)官网、社区、博客

2)专栏

  • Hive 教程

3)大厂实践

Presto、Trino

1)官网、社区、博客

2)专栏

  • Presto 架构、源码分析专栏
  • Presto 最佳实践、调优、踩坑专栏
  • Presto 资料汇总、会议资讯专栏

3)大厂实践

Spark

1)官网、社区、博客

2)专栏

  • Apache Spark 的设计与实现

3)大厂实践

Flink

1)官网、社区、博客

2)专栏

  • Flink 架构、源码分析专栏
  • Flink 实战系列
  • Flink 开源项目汇总
教程

3)大厂实践

Kudu

1)官网、社区、博客

2)专栏

  • Kudu 原理
  • Kudu 相关论文

3)大厂实践

4)其他

HBase

1)官网、社区、博客

2)专栏

3)大厂实践

4)其他

ClickHouse

1)官网、社区、博客

2)专栏

3)大厂实践

4)其他

Doris

1)官网、社区、博客

2)专栏

  • Doris全面解析
  • Doris最佳实践

3)案例实践

StarRocks

1)官网、社区、博客

2)案例实践

Iceberg

1)官网、社区、博客

2)应用

Hudi

1)官网、社区、博客

2)应用

Calcite

1)官网、社区、博客

2)应用

DolphinScheduler

二、大数据应用

大数据架构

数仓相关

数据治理、数据资产、元数据管理

元数据管理

Datahub

  • Datahub A Metadata Platform for the Modern Data Stack

三、资源汇总

大厂技术博客

大数据相关网站

相关开源项目

  • 数仓相关开源项目汇总

相关论文