Skip to content

《实用数据分析:数据分析师从小白到精通》阅读笔记

写在前面

  • 书籍介绍:暂无。
  • 我的简评:暂无。
  • !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦

第一章:20分钟看懂大厂如何运用数据分析

  • 仓库、运输、分拨、配送

  • 仓库的拣选效率低,想办法提升拣选效率

  • 拣选效率=拣选数量/拣选工时

  • 拣选作业:领取拣选批次、选择合适的拣选工具、行走至目标仓位、选取需拣选的目标商品、目标商品放至拣选容器、将商品送至包装区域

  • 数据处理层(历史销售数据、用户行为数据、促销数据、商品价格数据、其他业务数据)=》预测模型层(销售预测模型)=》决策优化层(当前的拣选区域、未来的预测销量、成本最低原则)=》指令下达层(商品移位指令)=》作业执行层(作业人员执行移位作业)

数据分析过程

  • 描述性分析

  • 做什么:实际拣选效率是多少?效率水平是高还是低?

  • 如何做:数据获取、质量分析、指标设计、分析报告

  • 诊断性分析

  • 做什么:拣选效率为什么低?如何才能提升拣选效率?

  • 如何做:占比分析、贡献度分析、时间序列分析、公式法分析

  • 预测性分析

  • 做什么:如何知道商品的未来销量?

  • 如何做:决策树算法、随机森林算法、神经网络算法

  • 决策性分析

  • 做什么:日常如何作业效率最高?

  • 如何做:三步分析法、数据产品设计

  • 数据分析方法:数据库(SQL、HIVE)、分析工具(Python、R、Excel)、分析理论(统计学、数据挖掘)

第二章:数据分析的那些事

2.1.为什么要学习数据分析?

  • 数据革命的带来

  • 应用领域非常广、产生大量的新型就业、影响的人群非常大、和日常生活息息相关、具有很大渗透性

  • 数据采集(手机、电脑终端各类传感器等)、数据传输(宽带、蓝牙、移动网络等)、数据存储(数据仓库、云存储等)、数据应用(数据分析与挖掘决策系统等)

  • 数据是企业的竞争力的核心

  • 人才和数据是阿里巴巴集团最大的财富和最核心的竞争力

  • 在欧盟、美国等发达国家,数据分析普遍被作为运营决策的前提要素

  • 将数据与企业运营相结合的公司其生产率高于其他企业5-6个百分点

  • airbnb、今日头条

  • 数据分析将成为工作的必备能力

2.2.学习数据分析有哪些好处?

  • 薪资水平高

  • 人才缺口大

  • 就业范围广

2.3. 从事数据分析的职业发展路线是怎样的?

  • 业务:数据分析(高级)=〉实用数据分析:数据分析师从小白到精通=〉总经理/CEO

  • 技术:数据分析(高级)=〉数据挖掘工程师=〉数据科学家

  • 数据分析师:将数据中的价值提取、分析并解读出来以指导行动

  • 数据科学家:运用数据科学领域知识对数据进行采集、处理、挖掘、建模等操作,以形成洞察并最终解决问题的专业型人才

  • 实用数据分析:数据分析师从小白到精通看是面向特定需求和数据处理流程来开发产品的人。解决用户需求的产品方案、形成对应的产品需求文档、选择何种数据人员来满足客户需求、保证项目的顺利开展、提供产品的优化、迭代和运维方案

2.4.从事数据分析的能力要求是什么?

  • 逻辑思维能力、数据解读能力、沟通表达能力、编程能力、建模能力、产品设计能力

第三章:数据分析的四个层级

3.1.什么是描述性分析及描述性分析可以做什么?

  • 数据分析:使用大量数据、统计、定量分析、预测模型以及基于事实的管理来推动决策过程和实现价值增生

  • 数据分析的四个层次:监控现状(描述性分析)、诊断问题(诊断性分析)、预测未来(预测性分析)、决策分析(决策性分析)

  • 描述性分析:以组成事件的关键环节为基础,通过设置合理的指标对各环节进行量化,以达到还原事件的目的。同时可以根据科学的评价标准,发现事件发生过程中的异常

  • 描述性分析目的:描述现实(发生了什么?)、发现问题(结果是好是坏?)

3.2.什么是诊断性分析及诊断性分析可以做什么?

  • 没有找到具体原因的解决方案都是假方案

  • 诊断性分析:根据业务逻辑,通过数据寻找引起最终结果的原因和可以改变未来结果的方法

  • 诊断性分析目的:解决问题(坏的结果:产生问题的原因和解决的方案)、发现机会(好的结果:在机会出现时发现机会)

3.3.什么是预测性分析及预测性分析可以做什么?

  • 精准智能营销的一个典型应用发生在美国第二大超市塔吉特百货

  • 预测性分析:通过统计学、数据挖掘模型来对数据进行处理,发现隐藏的信息或预测分析对象的某些未知属性

  • 挖掘机会:分类(确定对象属于哪一个预定义的目标类)、聚类(根据在数据中发现的描述对象的信息,将对象进行分组)、关联分析(发现隐藏在大型数据集中的有意义的联系)、离群点检测(发现与其他对象不同的对象)

3.4.什么是决策性分析及决策性分析可以做什么?

  • 决策性分析:通过数据分析、挖掘确定事件的最佳执行方案,以实现增加收入、降低成本、提升效率、控制风险的目的

  • 实现目标:决策支持(现状及目前存在的问题;可以达成的最优目标;达成目标的方案;达成目标的收益和成本;输出分析报告,给出分析结论;)、决策系统(输出作业指令、指导作业)

  • 分析层次:描述性分析(描述现实、发现问题)、诊断性分析(解决问题、发现机会)、预测性分析(挖掘机会)、决策性分析(实现目标)

第四章:认识数据

4.1.什么是数据及数据集?

  • 数据的分类:定性数据(不可计算的,如头发的颜色,有黑、白、黄等)、定量数据(可以计算的,如商品的销量,员工的收入等)、定时数据(表示日期、时间的)

  • 数据集的结构:行(每一行是一个对象的记录,也叫做事件、样本、案例或者向量)、列(每一列是对象的一个属性,也叫做对象的特征、数据集的字段或者维度)

  • 属性的分类及处理方式:定性的(提供足够信息以区分对象,众数、分布分析等);定量的(对对象某些特征的统计数值,均值、方差、标准差等);定时的(日期、时间的统计,时间序列)

4.2.什么是指标及如何评估数据的质量?

  • 指标的属性:业务属性(名称、计算逻辑、描述对象、时效和查询权限等);技术属性(系统来源、取数字段、取数频率、加工规则)

  • 指标的分类(按统计方式分):基础指标(指对描述对象的直接统计结果,未经过转化的数据。如交易笔数、交易金额、交易用户数等)、符合指标(指建立在基础指标之上,通过一定运算规则形成的反映事件结果的数据,如合格率、完成率、利润率等)

  • 指标的分类(按照描述内容分):数量指标(反映事件的规模、数量、统计结果等,如人口总数、当日销售额等)、质量指标(反映事件的质量、强度、经营管理的质量、经营效果等的数据,如合格率、完成率、利润率等等)

  • 数据的质量:缺失值(数据集中的某个字段或某几个字段缺失)、重复值(重复或者几乎重复的记录,应该唯一的对象出现重复)、异常值(不同于其他大部分数据对象的特征的数据,即小概率事件发生了。或者超过取值范围的异常值等)、准确率(数据描述结果与实际情况有偏差)

第五章:数据的质量分析

5.1.数据的准确率及重复值的识别和处理

  • 准确性原因(对数据的理解有误,字段含义与理解含义不同;指标的统计逻辑有差异;数据不完整,有缺失或遗漏)

  • 重复值原因(数据录入时重复录入;数据处理时产生了多条数据)

5.2.缺失值的识别和处理方法

  • 缺失值处理方法:重新收集、插值法补入、删除

5.3.异常值的识别和处理方法

  • 异常值识别方法:业务逻辑判别、统计判别

  • 异常值处理方法:删除、视为缺失值、保留异常

第六章:数据的分布分析

6.1.定量数据的分布分析方法(上)

  • 分布分析:对数据的分布情况进行描述,从而对事件的发生规律有准确的认识

  • 分布分析:定量数据(事件发生的一般结果是什么?事件结果的变化情况?事件各个结果的发生概率是什么?)、定性数据(哪些对象是需要重点关注的?)、定时数据(事件发生的趋势是什么样的?事件的发生是否存在周期性?)

  • 定量数据的分布分析:中心位置(集中趋势)(均值、中位数、众数、四分位数)、分散程度(离中趋势)(方差、标准差、极差、变异系数)、图形特征(图形特点)

6.2.定量数据的分布分析方法(下)

  • 离散型随机变量:0-1分布、二项分布、泊松分布

  • 连续型随机变量:均匀分布、正态分布

  • 事件各个结果的发生概率是什么?大概率事件发生是正常的,小概率事件发生是异常的

  • 最终目标:根据事件发生的概率制定最优决策

6.3.定性数据的分布分析方法

  • 目的:寻找不同类别对象间的区别,或者对不同类别的对象做不同的处理,确定需要重点关注的对象

  • 定性数据分布分析:占比分析(以某一类定性特征作为分类标准看定量数据的分布情况)、贡献度分析(以某一类定性特征作为统计对象看定量数据的累计分布情况)

6.4.定时数据的分布分析方法

  • 目的:寻找事件发生结果随时间变化的规律

  • 定时数据分布分析:周期性分析(事件的发生是否存在周期性)、时间序列分析(事件的发生趋势是怎么样的)

第七章:描述性分析方法

7.1. 描述性分析的方法、步骤

  • 描述性分析;以组成事件的关键环节为基础,通过设置合理的指标对各环节进行量化,以达到还原事件的目的。同时可以根据科学的评价标准,发现事件发生过程中的异常

  • 分析目的:描述现实(发生了什么)、发现问题(结果是好是坏)

  • 分析步骤:确定描述对象;明确业务目标,熟悉业务逻辑;分割业务环节,确定关键节点;利益关系人及关系人的关注点;确定可以描述分析对象的指标;确定指标的评价标准;数据的展示;

7.2. 实战案例1:网站运营分析

  • 通过描述性分析,可以对任何业务进行分析,快速实现描述现实,发现问题的目的

  • 获客=〉激活=〉留存=〉变现=〉传播

  • 节点:业务流程中的每一个关键环节就是一个节点;流量:进入到每一个节点的用户数量;转化率:通过该层的流量/到达该层的流量;

7.3. 实战案例2:用户画像及用户留存分析

  • 用户留存分析、用户画像分析、标签数据分类、热力图

第八章:诊断性分析方法

8.1. 诊断性分析的方法、步骤

  • 诊断性分析:根据业务逻辑,通过数据寻找引起最终结果的原因和可以改变未来结果的方法

  • 分析目的:解决问题(坏的结果:产生问题的原因和解决的方案)、发现机会(好的结果:在机会出现时发现机会)

  • 分析步骤:1、确定问题的描述指标,以及指标的统计逻辑;2、确定指标的类别,是基础指标还是复合指标;3、对复合指标进行分解,分解到基础指标;4、对指标的描述对象进行分解,分解到基础对象;5、通过业务逻辑解释基础对象产生基础指标的原因;6、根据分析原因制定解决方案;

  • 分析方法:逻辑分析法、对比分析、相关性分析

8.2. 案例:寻找交易额下降的原因

  • 通过诊断性分析,寻找引起最终结果的原因和可以改变未来结果的方法

第九章:预测性分析方法

9.1. 分类分析的方法、步骤及应用案例

  • 分类是简化认识、降低管理成本、提升管理效率的重要手段

  • 常用的分类方法:决策树算法、随机森林算法、KNN-最近邻分类算法、神经网络算法等

  • 计算步骤:1、选择对象的一个特征,并根据这一特征对训练集进行分类;2、计算某特征分类后分类结果的混乱程度;3、以混乱程度最低为原则,确定最佳节点;4、删除不必要的节点;5、生成模型进行预测;

9.2. 聚类分析的方法、步骤及应用案例

  • 聚类分析:仅依据数据中发现的描述对象的特征,将数据进行分组,其目标是,组内的对象相互间是相似的,而不同组之间的对象是不同的

  • 常用算法:K-means、K-中心点、多层次聚类

  • K-means算法是以最小误差函数的值最小为目的,按照预先设定的划分类别数量,采用距离作为相似性的评价指标,认为两个对象的距离越近,其相似度越大

  • 距离计算方法:欧几里得距离、曼哈顿距离

9.3. 关联分析的方法、步骤及应用案例

  • 关联分析:发现隐藏在大型数据集下有意义的联系

  • 关联分析步骤:支持度计数、计算支持度、置信度计数、计算置信度、确定频繁项集

  • 常用算法:APriori、FP-tree

9.4. 离群点检测的方法、步骤及应用案例

  • 应用场景:羊毛党识别、故障设备识别、欺诈检测

  • 离群点检测:发现与其大部分对象不同的对象

  • 检测方法:基于统计、基于邻近度、基于密度

  • 判别方法:拉伊达准则3x原则、等概率原则、拉格布斯准则

第十章:决策性分析方法

10.1. 决策性分析的方法、步骤(上)

  • 决策性分析:通过数据分析、挖掘确定事件的最佳执行方案,以实现增加收入、降低成本、提升效率、控制风险的目的

  • 决策:大决策(决策频率低,单次决策影响大,价值高)、小决策(决策频率高、单次决策影响小,总价值高)

  • 决策支持的分析步骤:1、现状是什么;2、现状存在哪些问题;3、解决方案是什么;4、可行性分析;5、分析结论;

10.2. 决策性分析的方法、步骤(下)

  • 窃电用户识别

10.3. 数据分析的思维模型

  • 确定分析目的、熟悉业务逻辑、获取数据、数据质量分析、描述性分析、诊断性分析、预测性分析、决策性分析

写在后面

  • pdf书籍、笔记思维导图、资料打包下载地址:暂无
  • 思维导图在线查看:点击打开
  • 得到电子书地址:暂无