data-group
data-group copied to clipboard
[DISCUSS-3] 数据仓库中数据管理的讨论
- 如何确定数据清洗后是否与源数据保持一致
- 如何追溯数据仓库中的表的血缘关系
- 如何管理数据仓库中的元数据
1、清洗任务事中做dqc校验,不通过则任务状态为失败,防止后续加工任务也数据不一致; 2、写个python脚本解析sql,或者解析日志,来完成表级别的血缘关系网;字段级别的解析比较难实现; 3、元数据管理工具啊,市面上好多的,没有满意的自己设计
@qinglww 什么是 dqc , data quaility check ?