Python数据分析基础与应用
模块
PAGE2
PAGE21
模块9数据分析与可视化综合实战
【学习与训练】
9.1数据分析的过程
数据分析可以概括为明确目的与问题定义、数据收集与提取、数据预处理、数据分析、数据展示与探索、预测模型创建和选择、评估模型和部署与应用几个阶段。
1.明确目的与问题定义
在数据分析前,首先需要明确数据分析的目标,即本次数据分析要研究的主要问题和预期的分析目标等,这称为问题定义。只有弄清楚了分析的目的是什么,才能提出有价值的问题,提供清晰的指引方向。
数据分析总是始于要解决的问题,而这个问题需要事先定义。问题定义这一步及产生的相关文档,将决定整个数据分析所遵循的指导方针。
2.数据收集与提取
经过问题定义阶段后,在分析数据之前,首先要做的就是获取数据。数据收集对数据分析的成功起着至关重要的作用,所采集的样本数据应尽可能多地反映实际情况,即能够描述系统对来自现实真实的反应。如果收集了不合适的数据,或者对不能很好地代表系统的数据集进行数据分析,得到的模型将会偏离作为研究对象的系统
数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。
?从哪取,数据来源——不同的数据源得到的数据结果未必一致。
?何时取,提取时间——不同时间取出来的数据结果未必一致。
?如何取,提取规则——不同提取规则下的数据结果很难一致。
3.数据预处理
数据预处理是指对收集到的原始数据进行数据加工,主要包括数据清洗、数据合并、数据变换、数据规约等处理方法,即将各种原始数据加工成为符合准确、完整、简洁等标准的高质量数据,保证该数据能更好地服务于数据分析工作。
(1)数据清理
数据清理主要是将“脏”数据变成“干净”数据的过程,通过一系列的方法对“脏”数据进行处理,包括删除重复数据、填充缺失数据、检测异常数据等,以达到清除冗余数据、纠正错误数据的目的。
(2)数据合并
数据集成主要是把多个数据源合并成一个数据集,以达到增大数据量的目的。
(3)数据变换
数据变换主要是将数据转换成适当的形式,以降低数据的复杂度。
(4)数据规约
数据规约主是是在尽可能保持数据原貌的前提下,最大限度地精简数据量,包括除低数据的维度、删除与数据分析主题无关的多余数据等。
4.数据分析
数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和隐藏的规律性,为科学决策提供参考。
数据预处理完毕,就要对数据进行综合分析和相关分析,需要对产品、业务、技术等了如指掌才行,需要熟悉数据分析原理和方法,常用的数据分析方法包括分类、聚类、关联和预测等。也需熟悉专业数据分析工具,Excel是最简单的数据分析工具,专业数据分析工具有Python、FineBI等。
5.数据展示和探索
数据可视化是获得信息的最佳方式之一,通过可视化呈现数据的方式,不仅能快速抓住要点信息,而且,还可以揭示通过简单统计不能观察到的模式和结论。
数据展示最佳方式是图表,能用图说明问题的就不用表格,能用表说明问题的就不用文字。因为借助数据可视化图表,能有效直观地表述想要呈现的信息、观点和建议,同时也可以使用报告等形式与他人交流。
一般情况下,数据是通过表格和图形的方式来呈现的。常用的数据图表包括饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图等。进一步加工整理变成我们需要的图形,例如金字塔图、矩阵图、漏斗图、帕雷托图等。
6.预测模型创建和选择
预测模型是指用于预测的、用数学语言或公式来描述的事物间的数量关系。它在一定程度上揭示了事物间的内在规律性,预测时把它作为计算预测值的直接依据。在数据分析的预测模型的创建和选择阶段,要创建或选择合适的统计模型来预测某一个结果的概率。
根据输出结果的类型,模型可分为以下3种。
①分类模型:模型输出结果为类别型数据。
②回归模型:模型输出结果为数值型数据。
③聚类模型:模型输出结果为描述型数据。
创建或选择合适的统计模型来预测某一个结果的概率。
7.模型评估
模型评估阶段也就是测试阶段,该阶段是从整个数据分析的原始数据集中抽取出一部分用作验证集,并用验证集去评估使用先前采集的数据所创建的模型是否有效。
8.部署与应用
数据分析的最后一步是部署与应用,部署过程基本上就是把数据分析得到的结果应用到实践中去,数据应用是数据具有落地价值的直接体现。
数据分析的结果有多种部署方案,通常这个阶段也称为数据报告的撰写。数据报告的撰写应详细描述以下几点:结果分析、决策部署、风险分析、评估商业影响。
9.2基于互联网的数据分析的专业术语解释
基于互联网的数据分析过程中,例如电子商务用户行为分析,经常会涉及转化率、跳出率、有效用户、活跃用户、流失用户、核心用户、用户流失率等专业术语。对这些术语的解释