数据中台之数据体系建设

文章分类:APP行业动态 发布时间:2020-05-28 原文作者:Shi Yongfeng 阅读( )

1、数据体系规划

中台数据体系具备特征:

  • 覆盖全域数据
  • 结构层次清晰:纵向数据分层,横向主题域与业务划分
  • 数据准确性一致:定义一致性指标、统一命名、统一计算口径
  • 性能提升
  • 降低成本
  • 方便易用

数据中台体系架构数据分层

  • 贴源数据层ODS:操作数据层,对各个业务数据进行采集、汇聚、整合、增加数据标识、非结构转化为结构数据等,不做深度清洗加工——数据汇聚接入,例如:东方国信爬虫、新大陆数据汇聚接入
  • 统一数仓层DW:细分为DWD(明细数据层)与DWS(汇总数据层),对业务数据进行建模存储。按业务角度从新定义组织一致的标准、维度、形成统一的标准业务数据体系——数据整合清洗,HiveSQL开发,数据清洗
  • 标签数据层TDM:面向建模对象,通过ID-Mapping打通各个业务板块,形成对象的全域标签体系,方便深度分析、挖掘、应用——数据打标签,例如:客户RFM等级分类
  • 应用数据层ADS:应用业务使用的的数据均只来源于标签层与应用层——适用于应用业务的机器学习数据挖掘的结果,例如:客户销售精细化分析

2、贴源数据层建设(ODS)——全域数据统一存储

2.1相关概念:这里的ODS层,是指做多源数据的汇聚、整合。但传统的ETL的ODS系统是指数据交换、实时性、报表等功能。

  • 整合的三种数据分类:结构化数据(表)、半结构化数据(JSON)、非结构化数据(图片、视频)

2.2数据表设计:

  • 前缀+业务系统表名:例如fjyd_ods.ods_customer或ODS_fjyd_ods_customer
  • 字段类型保持一致:用double类型
  • 采用后缀标识:ODS_fjyd_ods_customer_delta
  • 日志、JSON等半结构化数据,数据解析到结构化数据表中

2.3数据表实现:一般使用数据同步工具,例如,DataPhin,实现ODS数据同步。步骤分为:发布采集、加入生产调度、配置参数限速、容错监控、告警机制

3、统一数仓层建设(DW或CDM)——标准化的数据底座

维度建模具备特点:

  • 模型简单易理解
  • 性能好
  • 可扩张性好
  • 数据冗余

3.1相关概念:建模工作按照这些维度展开

  • 业务板块:个人与集团、医疗、金融、地产、电信等
  • 模型设计
  • 数据域:例如,采购域、供应链域、财务域、HR域等
  • 业务过程
  • 修饰词
  • 指标设计
  • 计算方法
  • 维度表
  • 事实表
  • 粒度
  • 一致性指标含义

3.2数据域的划分

  • 第一阶段:数据调研
  • 第二阶段:业务分类
  • 第三阶段:数据域定义
  • 第四阶段:总线矩阵构建:数据域与业务过程图

3.3指标设计:

  • 原子指标+时间修饰+其他修饰词/类型=派生指标 ,例如:stay_time_7d_APP,最近7天(1周)停留时间

3.4维度表设计

3.5事实表设计

3.6模型落地步骤:ODS数据同步任务正常运行

4、标签数据层建设(TDW)——数据价值魅力所在

4.1相关概念

  • 最终产物:标签融合表
    • 对象
    • 对象标识
    • 标签
    • 标签类目
    • 属性标签
    • 统计标签
    • 对象标识
    • 算法标签

4.2确定对象

  • 人、物、关系

4.3对象ID打通

  • 用户多个ID-ID之间两两映射关联打通,例如:身份证号码——电话号码映射关联

4.3标签类目设计

  • 人:个人、集团、机构等
  • 物:单个物品、物品集合等
  • 关系:单条关系记录、关系集合体等

4.5标签设计

  • 属性+指标+参数+特征
  • 数据情况+业务需求
  • 标签设计规则:层级逐级向下划分

4.6标签融合表设计

  • 纵表:类似K-V,ID-标签名-标签值
  • 横表(采用):ID-标签1-标签2-标签3-标签4……

4.7标签融合表实现步骤

5、应用数据层建设(ADS)——灵活支撑业务需求

5.1相关概念

  • 按业务需求,具有灵活性,类似于数据集市,简单数据组装层

5.2应用数据表设计

  • 以业务驱动建模,形成满足业务的规范
    • 即席查询,大宽表形式组织
    • 特定指标查询,K-V表形式组织
    • 其他复杂数据结构组织

5.3应用数据表现(建设步骤)

  • 调研业务,明确数据内容、格式、大小
  • 盘点统一数仓层、标签数据层是否满足业务数据需求
  • 组装应用层数据
    • 多维自由聚合分析
    • 即系查询,组装成大宽表
    • 特定指标,组装成K-V结构数据

5.4应用数据场景支撑

  • 一套数据多套存储

6、中台手记(四):数据资产建设

第一步:客户标签体系

第二步:调研客户数据来源

 
  • 1、交易数据
  • 2、评价数据
原文来自:Shi Yongfeng