data-group icon indicating copy to clipboard operation
data-group copied to clipboard

极少量数据变化的场景下,如何保证大数据平台数据与上游系统一致

Open hongsong2021 opened this issue 8 years ago • 7 comments

目前在做数据抽取时遇到这样的问题:某些表全量数据量很大,少量历史数据由于业务原因会做修改,此时面临两难选择。 全量同步时间太长,但能保证数据一致。 增量同步效率高,但某些修改数据不能被同步下来。

举个实际的例子:互金行业客户申请贷款后可能会发生提前还款,提前还款行为会导致后台系统将客户的还款行为计划和数据做修改,这是正常的业务场景,但毕竟少量发生(提前还款的人还是比较少的),这类数据的同步存在上述问题。 想请问大家有什么建议

hongsong2021 avatar Mar 01 '18 02:03 hongsong2021

你看一下拉链表能不能解决你这种场景:http://www.mdjs.info/2017/01/07/data-warehouse/zipper-table/

dantezhao avatar Mar 01 '18 03:03 dantezhao

拉链是个不错的选择,也是目前的一个待选方案。 但由于这块儿数据不需要保留历史信息,我们还在研究hive的LLAP merge特性。它的特点是支持ACID的操作。有经验的同学可以分享一下

hongsong2021 avatar Mar 01 '18 03:03 hongsong2021

我们这边把数据分成事务型和日志型的分开处理,事务型的就是类似你这边的带update的操作,现在还没啥想头。。

RebieKong avatar Mar 01 '18 05:03 RebieKong

拉链表肯定是个不错的选择啦,不过楼主你说的hive的LLAP merge特性倒是个idea,有朋友分享下嘛

AlanHand avatar Mar 02 '18 10:03 AlanHand

如果是这种需要同步关系型数据库变更的场景,是否可以考虑用hbase来处理

dantezhao avatar Apr 05 '18 10:04 dantezhao

@dantezhao 我们批量的用的是hbase,但是一路上坑很多

RebieKong avatar Apr 08 '18 02:04 RebieKong

binlog ?https://tech.meituan.com/2018/12/06/binlog-dw.html

dengwanc avatar Aug 29 '19 11:08 dengwanc