tis
tis copied to clipboard
TIS实现数据湖整合
2022年开始,大数据领域的存储层会转向使用数据湖,hudi 和iceberg会大行其道 经过需求分析可以先对iceberg进行整合,iceberg比hudi的优势是底层更为抽象,hudi 与spark有过多的依赖
资料:
- https://debezium.io/blog/2021/10/20/using-debezium-create-data-lake-with-apache-iceberg/
- https://github.com/memiiso/debezium-server-iceberg
我建议先搞Hudi, Hudi 0.7以后就支持flink了。 Hudi社区和用户都明显多于iceberg。况且Hudi也逐渐和spark解绑了。
同类型的FlinkX也支持了Hudi Writer, 当然它也是支持了iceberg的. Flink本身也有Hudi Connector. 相反Iceberg在相关生态中被支持的数量是比较少的
已经和hudi整合