Skip to content

《大数据时代的数据中台》学习笔记

写在前面

  • 书籍介绍:暂无。
  • 我的简评:暂无。
  • !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦

第一章:火热的数据中台

1.1. 数据中台课程大纲

  • 适合人群:大数据时代的数据中台、数据研发同学、大数据应用架构师、数据中台售前咨询、大数据解决方案专家、数据方案实施专家、数据项目经理、中台业务专家

  • 移动用户行为分析工具(数据采集):采集(注册、浏览、下单、支付、收货)、建模(事件分析、漏斗分析、留存分析、行为序列、用户分群、用户路径、点击分析、触达分析、分布分析、用户属性)、分析(日常数据监测、产品改进分析、广告投放分析、精细化运营、线索质量评估)

1.2. 数据中台为什么火了

  • 为什么需要数据中台:IT时代=>DT时代

  • 大数据特点:4个V,容量(Volume)、种类(Variety)、速度(Velocity)、价值(value)

  • 大数据下的数据消费思维:从样本思维转向总体思维、从精确思维转向容错思维、从因果思维转向相关思维

  • TOB价值驱动力:场景化体验、全流程的自动化、数据支撑的决策。数据驱动:从记录系统的副产物,变为业务执行系统的核心资产

  • TOC价值驱动力:产品改造(个性化Feed、猜你喜欢、相关推荐)、体验升级(推荐喜欢的内容、发现更大的世界、增强用户粘性)、指标提升(点击率、留存率、付费率)、其他场景(精准营销、反作弊、用户画像)、运营监控(用户拉新、用户留存、产品变现)、产品改进(新功能构建、测量功能优势、衡量改版结果)、营销分析(渠道投放监控、渠道拉新转化、ROI分析)、商业决策(客户分布、画像描述)

  • 数据中台价值表现:创新力(帮助企业用数据思维实现创新,赋能业务发展)、场景驱动(外部环境及内部业务调整,快速适应不断变化的需求)、经验沉淀(资产价值挖掘过程中,需将经验转换为数据资产体系的一部分)

  • 数据中台-提效降本、创新发展、实现降维打击

1.3. 数据中台能力范式

  • 场景解读:Supercell游戏公司(中台支撑一定的基础开发工作,如模拟物理环境、碰撞检测、动画建模等通用出来)

  • 场景解读:阿里数据中台“大中台、小前台”

  • 数据中台产品架构:数据资产(元数据管理、数据地图、数据运营、数据标准、数据质量、数据安全)、数据采集代理(公有云服务、专有云、工业边缘)、数据移动(全量移动、增量移动、多源支持、插件化扩展、调度监控)、统一存储(索引存储、关系存储、分析存储、非结构化存储)、融合计算(机器学习、批计算、流式计算、任务调度)、数据应用(决策分析、智慧运营、智能营销)、数据工场(数据采集任务开发、数据建模、离线处理任务开发、实时处理任务开发、数据质量规则开发、任务管理和监控)

  • 数据中台能力范式

第二章:打造企业数智化

2.1. 阿里巴巴为什么构建数据中台

  • IT时代=>DT时代

  • 数字化转型,本质上就是利用数据驱动业务,洞察新的商业机会,提高企业执行效率,减低风险,提升企业利润

  • 企业数字化转型最主要的三大挑战:业务挑战、技术挑战、组织挑战

  • 数据治理的七个要素:数据质量、合规使用、数据安全、标准定义、标准模型、元数据管理、数据研发

2.2. 数据中台与数据仓库的区别

2.3. 离线与实时数据仓库发展

第三章:数据中台落地方法论

3.1. 业务数据化

  • 企业转型数智化:业务数据化、数据资产化、资产服务化、服务数据化

  • 业务生产数据、数据反哺业务,前者强调业务数据的沉淀和收集,后者强调数据的应用

  • IT时代业务数据化的困局:有因无果、有线无面

  • DT时代业务数据化:场景化思维、大数据思维

3.2. 业务数据化六大现状

3.3. 数据资产化

  • 数据资产分类:数据模型、标签模型构建的标签、搜索模型构建的索引、日志模型、图谱模型构建的知识库

  • 数据资产实现的目标:可见、可懂、可用、可运营

  • 数据资产:标签层、应用层(TDM/ADM)、数仓层(DWD/DWS)、贴源层(ODS)

3.4. 资产服务化

  • 开发者基础服务(数据API服务、查询/分析服务、数据可视化服务、标签服务、视频结构化服务)、行业应用服务市场、行业AI模型

  • 标签服务:游戏偏好、应用兴趣、人口属性、消费偏好、地理位置、游戏深度、行业标签

  • AI模型服务:销售预测、智能要货、商品关联推荐、智能营销

第四章:数据中台落地分析

4.1. 企业数据应用能力成熟度分析

  • 数据应用能力成熟度:统计分析、决策分析、数据驱动、运营优化

  • 可以加速考虑建立中台:有信息化基础、沉淀了数据,实现了业务数据化过程;业务复杂,有丰富的数据维度和多个业务场景;有数字化转型、精细化运营需求

4.2. 数据中台建设之存通用

  • 数据移动:数据采集(收集任何来源的数据)、数据处理(支持复杂的数据处理如ETL)、数据湖(支持多样化的数据存储目标)

  • 数据资产实施步骤:摸现状、建规范、搭平台、管资产、做运营

  • 全新设计的数据工场:一站式、智能向导、可视化、数据融合、零编程、组合态

  • 数据工场特性:数据规范定义、多视角多方式可视化建模、设计即开发、面向数仓分层管理模式、增量/整库数据集成、拖拽式流程设计器、丰富的数据处理组件、独特性数仓应用组件、规则化数据清洗组件、模版化批量处理、可视化调试、科学完善的数据安全脱敏、个性化模型资源检索、数据资产管理、主题式分析、灵活的调度服务、多角度监控运维、全面完整的监控体系

第五章:数据中台最具价值的建模体系

5.1. 数据采集

  • 数据采集产品:业务数据、爬虫产品、API、填报、埋点

5.2. 数据同步

  • 数据同步类型:ETL架构和ELT架构

  • ETL在转化的过程中,主要体现在以下方面:空值处理、规范化数据格式、拆分数据、验证数据正确性、数据替换、Lookup、建立ETL过程的主外键约束

  • 数据转换需要做的四方面:清洗(缺失值、异常值、重复值)、融合(实体识别、冗余性识别)、变换(离散化、属性构造)、规约(特征规约、样本规约)

  • 数据加工产品:ETL开发(Kettle、Sqoop)、调度管理(Firflow、Azkaban)

5.3. 维度建模

  • 指标设计:原子指标、时间修饰词、其他修饰类型、派生指标

  • 事实表设计步骤:确定业务过程、定义粒度、确定维度、确定事实、冗余维度属性

5.4. DataVault与BitMap技术

  • Data Vault模型定义:按照Dan Linstedt的定义,Data Vault模型是面向细节的、可追踪历史的、一组有链连接关系的规范化的表的集合。它综合了三范式建模和星型模型的优点,其设计理念是满足企业对数据模型灵活性、可扩展性、一致性和对需求的适应性要求,是专门针对企业级数据仓库需要的一套建模方法

  • Hub组件,是一个数据表,用于记录在业务应用中常用到的业务实体键值,如员工ID,发票号

  • Link组件,通过存储相关业务实体间Hub表的SK(Surrorgate Key),以记录一对多,多对多的业务实体间关系,如员工与企业的雇佣关系,账户与客户之前的关系等

  • BitMap可以理解为通过一个bit数组来存储特定数据的一种数据结构:由于bit是数据的最小单位,所以这种数据结构往往是非常节省存储空间的

5.5. 知识图谱建模

  • BEAF原则:业务原则(实体是以业务为中心的)、分析原则(任何一个实体都是为关系分析而服务的)、冗余原则(避免存放任何重复的信息)、效率原则(尽量轻便,只存储关键信息)

5.6. 智能搜索建模

  • 电商搜索(ES索引模型)、智能问答(NL-SQL建模)、知识模型(KBQA)

第六章:中台赋能场景创新智能

6.1. 业务与AI、BI应用

  • 数据中台能力范式:收集、治理、处理、分析&智能

  • 数据展示与分析:描述性分析(自助式分析、类Excel报表、即席查询、数字大屏)、预测性分析(分类、预测、挖掘、回归)、图谱分析、数据搜索、用户行为分析、标签画像分析

  • 面向C端的数据中台:业务价值的核心在流量,面向营销,增加客户接触面,获客、转化、留存

  • 面向B端的数据中台:业务价值的核心在于高效协同、实时运营,降本增效,实现企业数智化的综合能力提升

6.2. 画像建模与应用

  • 定性分析:定性就是用文字语言进行相关描述。定量分析:定量就是用数学语言进行描述。定性分析与定量分析应该是统一的,相互补充的。

  • 用户画像常用来作为精准营销、推荐系统的基础性工作。其作用总体包括:精准营销、用户分析、数据挖掘、服务产品、行业报告&用户研究

写在后面

  • pdf书籍、笔记思维导图、资料打包下载地址:暂无
  • 思维导图在线查看:点击打开
  • 得到电子书地址:暂无