极少量数据变化的场景下,如何保证大数据平台数据与上游系统一致
目前在做数据抽取时遇到这样的问题:某些表全量数据量很大,少量历史数据由于业务原因会做修改,此时面临两难选择。 全量同步时间太长,但能保证数据一致。 增量同步效率高,但某些修改数据不能被同步下来。
举个实际的例子:互金行业客户申请贷款后可能会发生提前还款,提前还款行为会导致后台系统将客户的还款行为计划和数据做修改,这是正常的业务场景,但毕竟少量发生(提前还款的人还是比较少的),这类数据的同步存在上述问题。 想请问大家有什么建议
你看一下拉链表能不能解决你这种场景:http://www.mdjs.info/2017/01/07/data-warehouse/zipper-table/
拉链是个不错的选择,也是目前的一个待选方案。 但由于这块儿数据不需要保留历史信息,我们还在研究hive的LLAP merge特性。它的特点是支持ACID的操作。有经验的同学可以分享一下
我们这边把数据分成事务型和日志型的分开处理,事务型的就是类似你这边的带update的操作,现在还没啥想头。。
拉链表肯定是个不错的选择啦,不过楼主你说的hive的LLAP merge特性倒是个idea,有朋友分享下嘛
如果是这种需要同步关系型数据库变更的场景,是否可以考虑用hbase来处理
@dantezhao 我们批量的用的是hbase,但是一路上坑很多
binlog ?https://tech.meituan.com/2018/12/06/binlog-dw.html