Skip to content

《数据中台实践课》学习笔记

写在前面

  • 书籍介绍:暂无。
  • 我的简评:暂无。
  • !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦

开篇词:数据中台,是陷阱?还是金钥匙

原理篇

01、前因后果:为什么说数据中台是大数据的下一站?

  • 首次给出了数据仓库的完整定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。

  • 恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。

  • 恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是它的优势

  • 金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务。

  • 进入互联网时代,有两个最重要的变化:一个是数据规模前所未有,另一个是数据类型变得异构化

  • Hadoop 相比传统数据仓库主要有两个优势:1、完全分布式,易于扩展;2、弱化数据格式

  • 数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。

  • 大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台

  • 大数据平台按照使用场景,分为数据集成、数据开发、数据测试……任务运维,大数据平台的使用对象是数据开发。

  • 数据平台的底层是以 Hadoop 为代表的基础设施,分为计算、资源调度和存储。

  • Hive、Spark、Flink、Impala 提供了大数据计算引擎:Hive、Spark 主要解决离线数据清洗、加工的场景;Flink 主要是解决实时计算的场景;Impala 主要是解决交互式查询的场景。

  • 这些计算引擎统一运行在一个称为 Yarn 的资源调度管理框架内,由 Yarn 来分配计算资源。

  • 数据割裂的另外一个问题,就是大量的重复计算、开发,导致的研发效率的浪费,计算、存储资源的浪费,大数据的应用成本越来越高。

  • 2016 年,阿里巴巴率先提出了“数据中台”的口号。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用。

  • 数据中台构建于数据湖之上,具备数据湖异构数据统一计算、存储的能力,同时让数据湖中杂乱的数据通过规范化的方式管理起来。 数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,数据中台增加了数据治理和数据服务化的内容。 数据中台借鉴了传统数据仓库面向主题域的数据组织模式,基于维度建模的理论,构建统一的数据公共层。

02、关键抉择:到底什么样的企业应该建数据中台?

  • 数据产品暴露出很多尖锐的问题:1. 指标口径不一致;2. 数据重复建设,需求响应时间长;3. 取数效率低;4. 数据质量差;5. 数据成本线性增长。

  • 指标口径不一致,可能原因包括三种:业务口径不一致、计算逻辑不一致、数据来源不一致。

  • 数据中台是如何解决这些问题:1、管好指标;2、实现指标体系化的管理,提高指标管理的效率;3、确保所有的数据产品、报表都引用指标系统的口径定义

  • 数据中台的构建需要非常大的投入:一方面数据中台的建设离不开系统支撑,研发系统需要投入大量的人力,另外一方面,面对大量的数据需求,要花费额外的人力去做数据模型的重构

  • 企业在选择数据中台的时候,应该考虑这样几个因素:1、企业是否有大量的数据应用场景;2、为了消除数据孤岛,就必须要构建一个数据中台;3、面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提高效能,数据经常出问题而束手无策;4、企业规模也是必须要考虑的一个因素,数据中台因为投入大,收益偏长线

03、数据中台建设三板斧:方法论、组织和技术

  • 早在 2016 年,阿里巴巴就提出了数据中台建设的核心方法论:OneData 和 OneService。

  • 为了实现模型的复用,数据中台适合采用分层的设计方式,常见的分层包括:ODS 原始数据层,DWD 明细数据层,DWS 轻度汇总数据层,ADS/DM 应用数据层 / 数据集市层

  • OneData 体系的目标是构建统一的数据规范标准,让数据成为一种资产,而不是成本。

  • OneService,数据即服务,强调数据中台中的数据应该是通过 API 接口的方式被访问。

  • 屏蔽异构数据源:数据服务必须要能够支撑类型丰富的查询引擎,满足不同场景下数据的查询需求,常见的有 MySQL、HBase、Greenplum、Redis、Elasticsearch 等。

  • 数据网关:要实现包括权限、监控、流控、日志在内的一系列管控能力,哪个应用的哪个页面访问了哪个模型,要做到实时跟踪,如果有一些模型长时间没有被访问,应该予以下线。

  • 逻辑模型:从用户的视角出发,屏蔽底层的模型设计的实现,面向用户提供逻辑模型。

  • 性能和稳定性:由于数据服务侵入到用户的访问链路,所以对服务的可用性和性能都有很高的要求,数据服务必须是无状态的,可以做到横向扩展。

  • OneService 体系的目标是提高数据的共享能力,让数据可以被用得好,用得爽。

  • 对数据中台的组织定位是:懂业务,能够深入业务,扎根业务。

  • 什么样的组织架构是适合数据中台建设的:数据产品部门:负责数据中台、数据产品的体系规划、产品设计、规范制定、应用效果跟进,指标口径的定义和维护(有的部门是由分析师管理)。 数据平台部门:负责研发支撑数据中台构建的产品,例如指标系统、元数据中心、数据地图等。 数据开发团队:负责维护数据中台的公共数据层,满足数据产品制定的数据需求。 应用开发团队:负责开发数据应用产品,比如报表系统、电商中的供应链系统、高层看板、经营分析。

特别放送 | 史凯:建设数据中台到底有什么用?

  • 大家对于数据中台最多的期待是如下三点: 距离业务更近; 为企业提供直接的业务价值; 提供数据服务而不仅是报表。

  • 过去企业的数据系统距离用户和业务比较远:第一,数据系统只是技术支撑而不能直接产生业务价值;第二,当业务人员需要在报表里修改一些内容的时候,得到的响应慢;第三,过去在数据方面的投资,大量花费在数据采集、处理和建模部分

  • 数据中台的愿景是打造数据驱动的智能企业。

  • 数据中台的使命是赋能业务以数据智能的能力,让业务更智慧

  • 企业能够获得两个方面的收益:优化现有业务和实现新业务的转型。

  • 优化现有业务:第一,增加现有业务的收入;第二,促进生产效率;第三,降低运营成本,提升运营的利润;第四,提升用户体验;第五,提升资产利用率

  • 业务创新和转型:第一,数字化产品创新;第二,数字化资产销售;第三,业务平台化收益;第四,数字化生态业务。

  • 信息化解决的是企业内部的管理问题,让企业能够以一个有组织、有流程的方式高效地运转起来。 数字化解决的是企业与外部的连接问题,让企业能够直接触达客户,并且建立线上的业务。 数智化解决的是让企业成为智能企业,业务更智慧的问题,这个过程的核心生产要素就是数据。

实现篇

04、元数据中心的关键目标和技术实现方案

05、如何统一管理纷繁杂乱的数据指标?

写在后面

  • pdf书籍、笔记思维导图、资料打包下载地址:暂无
  • 思维导图在线查看:点击打开
  • 得到电子书地址:暂无