大数据学习文档、实战代码、源码解析、测试数据

包含python、mysql、shell、 hadoop、hive、zookeeper、hbase、flume、kafka、spark、flink、dolphinscheduler、elasticsearch、sqoop、clickhouse、flinkcdc、canal、debezuim、datax、hudi、starrocks、iceberg、doris、cdh、superset、docker、kubernetes、strampark、maxwell等组件学习、实战、面试持续更新中...

码字不易，路过的朋友们右上角请点个 ★star★ 鼓励一下~，感谢（抱拳）。

【 cassandra 代码持续更新中...】

【 doris 代码持续更新中...】

一、python

【 1. python 基础】

【 2. python Numpy 】

【 3. python Pandas 】

【 4. Anaconda 搭建pyflink开发环境】

【 5. Anaconda Jupyter Notebook中配置多版本Python 】

二、shell

【1. shell基础】

【2. 安装包下载】

【 3. 一键搭建hive集群】

【 4. 一键搭建dolphinscheduler集群】

【 5. 一键搭建flume集群】

【 6. 一键搭建elasticsearch集群】

三、大数据基础环境准备

【 1. 安装虚拟机Centos7 】

【 2. 安装MobaXterm 】

【 3. centos7免密设置】

【 4. centos7安装JDK1.8 】

【 5. centos7安装mysql 】

四、hadoop

【 1. CentOS7安装hadoop集群】

【 2. hadoop基于 HDFS HA 集群高可用安装】

【 3. hadoop基于 YARN HA 集群高可用安装】

【 4. hadoop shell 命令】

【 5. hadoop mapreduce实战】

五、hive

【 1. CentOS7安装hive集群】

六、zookeeper

【 1. CentOS7安装zookeeper集群】

【 2. zookeeper基础】

【 3. zookeeper实战】

七、hbase

【 1. CentOS7安装Hbase集群】

【 2. hbase原理】

【 3. hbase shell命令】

【 4. hbase 实时同步elasticsearch 案例】

八、flume

【 1. CentOS7安装Flume集群】

九、kafka

【 1. kafka 安装（集群版）】

【 2. ★ kafka 面试之高可用 ★ 】

【 3. kafka 面试30问】

【 4. kafka 分区数真的越多越好吗】

【 5. kafka 事务实现原理】

【 6. kafka 常见故障处理】

【 7. kafka 真实项目最佳实践】

【 8. 超惊艳的Kafka可视化工具，用了以后效率翻倍！】

十、spark

十一、flink

【 1. ★ flink 面试 100 问 ★ 】

【 2. flink 消费kafka的四种起始位置】

【 3. pyflink Table API 基本操作案例】

【 4. pyflink Table API wordcount案例】

【 5. pyflink DataStream API wordcount案例】

【 6. pyflink 集成 hive catalog模式建设数仓】

【 7. pyflink 集成 hive catalog模式读写数据】

【 8. FlinkSql 集成 hive catalog模式进行读写数据】

【 9. ★ Flink checkpoint 执行流程及优化方案 ★ 】

【 10. ★ Flink 内存优化方案 ★ 】

【 11. Flink任务执行与资源划分】

【 12. Flink 算子链与槽位共享】

【 13. Flink 命令行工具】

【 14. 拒绝背锅，FlinkCDC采集表操作日志】

【 15. 还不会修改Flink源码？请看这篇教程→ 】

【 16. 这三种场景，建议使用Flink→ 】

【 16. FlinkSQL搭配Hive构建批流一体数仓完整过程】

【 17. Flink实现运输公司车辆超速实时监测】

【 18. 源码剖析 | Flink源码修改编译保姆级教程】

【 19. 这三种场景，建议使用Flink 】

【 20. 还不会修改Flink源码？请看这篇教程】

【 21. 万字长文 | 透过现象看本质 | 从WordCount 到Flink Streaming API 源码详细解读】

【 22. Flink Table Api 完整源码解析】

【 23. Flink《任务执行流程十步走》详细总结】

【 24. 翻遍Flink源码，发现Client任务提交之后运行步骤竟然还有45步之多... 】

【 25. 5000字彻底讲清什么是Flink状态与容错】

【 26. 一张图彻底说清楚 Flink checkpoint 过程中 Coordinator 到底做了哪些事】

【 27. Flink源码分析 | barrier(屏障) 如何传输】

【 28. Flink源码解析|状态的更新和存储流程详解】

【 29. Flink源码解析 | 元信息的存储】

【 30. Flink源码解析 | 状态恢复如何进行元数据读取】

【 31. Flink源码解析 | 状态的重分配】

【 32. Flink源码解析 | 状态数据的恢复】

【 33. Flink状态的重分配策略详解】

【 34. Flink窗口基本概念和设计思想】

【 35. Flink调优 | 动态调整并行度】

十二、dolphinscheduler

【 1. dolphinscheduler 定时任务编写详细教程】

【 2. dolphinscheduler 定时任务编写详细教程】

【 3. dolphinscheduler 文件/任务组/UDF管理】

【 4. dolphinscheduler 配置DataX,Flink,Hive教程】

【 5. dolphinscheduler 配置spark、SQL、Sqoop教程】

十三、elasticsearch

【 1. ES增删改查代码实战】

十四、sqoop

十五、clickhouse

【 1. clickhouse 简介、安装及实操】

【 2. clickhouse 基本操作】

【 3. clickhouse 物化视图】

【 4. clickhouse字典操作】

【 5. clickhouse 测试数据集及SQL练习】

【 6. clickhouse集成mysql 】

十六、flinkcCDC

【 1. OceanBase CDC 导入 Elasticsearch 】

【 2. MongoDB CDC 导入 Elasticsearch 】

【 3. Oracle CDC 导入 Elasticsearch 】

【 4. PolarDB-X CDC 导入 Elasticsearch 】

【 5. SqlServer CDC 导入 Elasticsearch 】

【 6. TiDB CDC 导入 Elasticsearch 】

【 7. 涨知识！Flink旁侧流同步Mysql多表到Doris 】

十七、canal

十八、debezium

十九、datax

【 1. DataX Ftp远程文件读写操作】

【 2. DataX Oracle 读写教程】

【 3. DataX MySQL读写教程】

二十、hudi

二十一、starrocks

二十二、iceberg

【 1. 基于Flink＋Iceberg构建准实时数仓】

二十三、doris

【 1. Doris安装与部署】

【 2. doris如何导入本地数据？】

【 3. doris数据表的创建与数据导入】

【 4. doris 导入的数据转换、列映射及过滤】

【 5. 再见Hive，新一代数仓Doris横空出世，真香！】

【 6. Doris真贴心，连测试数据都提供了，整整100G！建议收藏。】

【 7. 这款Doris运维组件，同事用了都说香... 】

【 8. 基于Doris的OLAP查询和实时数据仓库实战】

【 9. Doris 集群扩缩容实战】

【 10. Flink Doris Connector使用详解】

【 11. 腾讯一面：Doris有哪几种方式连接外部表】

【 12. Doris查询太慢？看一下这些优化方法... 】

【 13. 网易一面：七种Doris数据导入方式你知道几种？】

【 14. 超级详细Doris安装部署教程】

【 15. 万字长文 | 详解Doris数据对象】

二十四、cdh centos

【 1. cdh6 搭建大数据集群（centos版本）】

二十五、cdh ubuntu

【 1. CDH6搭建大数据平台（Ubuntu版）】

二十六、superset

二十七、docker

二十八、kubernetes

二十九、streampark

三十、maxwell

三十一、Github

【 1. 想参与开源，不懂怎么PR(Pull Request)，看这篇就够了】

【 2. 超级详细的github操作教程（万字长文）】

三十二、NIFI

【 1. NiFI实时同步MySQL数据到Kafka保姆级教程！】

三十三、SEATUNNEL

【 1. 完美替代DataX，Seatunnel初体验. 】

【 2. 手搓一个全新 Seatunnel Connector 】

【 3. 共建开源】手把手教你贡献一个Seatunnel PR，超级详细教程！】

【 4. seatunnel配置写入Kafka任务，附300个案例demo 】

【 5. dolphinscheduler+flink+seatunnel集成详细教程】

三十四、Dinky

【 1. Dinky0.7安装详细教程... 】

三十五、Paimon

【 1. Paimon 初体验... 】

三十六、Datasophon

【 1. 国产大数据平台Datasophon安装详细教程！】

大数据面试系列

【 1. 百度一面：什么是Flink状态？】

【 2. 面试数据治理工程师，让介绍一下什么是数据治理】

【 3. Flink面试高频题：Flink两阶段提交】

大数据技能总结

其他

【 1. 超级惊艳的一款免费在线画图工具，完美适配程序员! 】

【 2. Snowflake算法个人魔改版... 】

【 3. FTP服务搭建教程（虚拟用户访问FTP服务）】

【 4. 大数据精彩应用 | 催债也能有超高用户体验】

【 5. 国内AI大模型已近200个，我心中的排名前十的是哪些？】

bigdata_learning bigdata_learning copied to clipboard

Metadata

大数据学习文档、实战代码、源码解析、测试数据

码字不易，路过的朋友们右上角请点个 ★star★ 鼓励一下~，感谢（抱拳）。

一、python

二、shell

三、大数据基础环境准备

四、hadoop

五、hive

六、zookeeper

七、hbase

八、flume

九、kafka

十、spark

十一、flink

十二、dolphinscheduler

十三、elasticsearch

十四、sqoop

十五、clickhouse

十六、flinkcCDC

十七、canal

十八、debezium

十九、datax

二十、hudi

二十一、starrocks

二十二、iceberg

二十三、doris

二十四、cdh centos

二十五、cdh ubuntu

二十六、superset

二十七、docker

二十八、kubernetes

二十九、streampark

三十、maxwell

三十一、Github

三十二、NIFI

三十三、SEATUNNEL

三十四、Dinky

三十五、Paimon

三十六、Datasophon

大数据面试系列

大数据技能总结

其他

← Metadata

Owner

Metadata

bigdata_learning
bigdata_learning copied to clipboard