data-group 极少量数据变化的场景下，如何保证大数据平台数据与上游系统一致

目前在做数据抽取时遇到这样的问题：某些表全量数据量很大，少量历史数据由于业务原因会做修改，此时面临两难选择。全量同步时间太长，但能保证数据一致。增量同步效率高，但某些修改数据不能被同步下来。

举个实际的例子：互金行业客户申请贷款后可能会发生提前还款，提前还款行为会导致后台系统将客户的还款行为计划和数据做修改，这是正常的业务场景，但毕竟少量发生（提前还款的人还是比较少的），这类数据的同步存在上述问题。想请问大家有什么建议

Mar 01 '18 02:03 hongsong2021

你看一下拉链表能不能解决你这种场景:http://www.mdjs.info/2017/01/07/data-warehouse/zipper-table/

Mar 01 '18 03:03 dantezhao

拉链是个不错的选择，也是目前的一个待选方案。但由于这块儿数据不需要保留历史信息，我们还在研究hive的LLAP merge特性。它的特点是支持ACID的操作。有经验的同学可以分享一下

Mar 01 '18 03:03 hongsong2021

我们这边把数据分成事务型和日志型的分开处理，事务型的就是类似你这边的带update的操作，现在还没啥想头。。

Mar 01 '18 05:03 RebieKong

拉链表肯定是个不错的选择啦,不过楼主你说的hive的LLAP merge特性倒是个idea,有朋友分享下嘛

Mar 02 '18 10:03 AlanHand

如果是这种需要同步关系型数据库变更的场景，是否可以考虑用hbase来处理

Apr 05 '18 10:04 dantezhao

@dantezhao 我们批量的用的是hbase,但是一路上坑很多

Apr 08 '18 02:04 RebieKong

binlog ？https://tech.meituan.com/2018/12/06/binlog-dw.html

Aug 29 '19 11:08 dengwanc