Python数据分析基础与应用
模块
PAGE2
PAGE21
模块1认知数据分析与构建程序运行环境
【学习与训练】
1.1初识数据分析
1.1.1数据分析定义
什么是数据分析呢?数据分析是指用合适的统计方法及工具,对收集来的大量原始数据进行处理分析,对处理过的数据进行分类解析,为了提取有价值信息和形成有效结论而对数据加以详细研究和概括总结的过程。以求最大化发挥数据的作用,推动业务的发展。
1.1.2比较数据分析与数据挖掘
1.数据分析
(1)数据分析的基本定义
数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,形成结论,发挥数据的作用。数据分析可以帮助人们作出判断,以便采取适当行动。数据分析是数学与计算机科学相结合的产物。
(2)数据分析的主要作用
数据分析主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
(3)数据分析的主要方法
主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。
(4)数据分析的输出结果
数据分析通常会得到一个指标统计量结果,例如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。
2.数据挖掘
数据挖掘一般是指从大量数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计计算、分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
3.比较狭义的数据分析和广义的数据分析
完整的数据分析包括基本的数据分析和深入的数据挖掘两个部分,数据分析可以分为广义的数据分析和狭义的数据分析。
狭义的数据分析其主要目标就是生成可视化图表,并通过这些图表来洞察业务中的问题。
广义的数据分析包括狭义的数据分析和数据挖掘,即不仅要通过数据实现对业务的监控和分析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。我们通常所说的数据分析就是指狭义的数据分析。
(1)基本的数据分析工作
基本的数据分析工作一般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
?确定目标(输入)
?获取数据
?清洗数据
?数据透视
?数据报告(输出)
?分析洞察(后续)
(2)深入的数据挖掘工作
深入的数据挖掘工作应该包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
?确定目标(输入)
?数据准备
?数据加工
?数据建模
?模型评估
?模型部署(输出)
4.数据分析与数据挖掘的主要区别
数据分析是对数据的一种操作手段或者算法,其目标是针对先验的约束,对数据进行整理、筛选、加工,由此得到信息。
数据挖掘是对数据分析手段后的信息,进一步进行价值化的分析。
数据分析的结果是信息,这些信息作为数据,由数据去挖掘。而数据挖掘,又使用了数据分析的手段,周而复始。
数据分析和数据挖掘的最大区别在于,数据分析是以输入的数据为基础,通过先验的约束,对数据进行处理,其重点在于数据的有效性、真实性和先验约束的正确性。而数据挖掘则不同,数据挖掘是对信息的价值化的获取。价值化自然不考虑数据本身,而是考虑数据是否有价值。
1.1.3数据分析在企业经营决策的主要作用
在企业的经营决策中,数据分析具有以下三大作用。
1.现状分析——透过表面现象挖掘背后本质
2.原因分析——异常情况下的影响因素探析
3.预测分析——探求未来发展趋势与走向
1.1.4常用数据分析框架
常用的数据分析框架有:PEST、5W2H、SWOT、4P理论、逻辑树、客户生命周期等。
1.1.5常用数据分析方法
常用的数据分析方法有:趋势分析、多维分解、用户分群、漏斗分析、留存分析、A/B测试、对比分析、交叉分析。
1.1.6常用数据分析工具与类库
类库是用来实现各种功能的类的集合,Python本身的数据分析功能不是很强,需要借助一些功能强大的第三方扩展库来增强其数据分析能力,常用的扩展库有NumPy、Pandas、Matplotlib、SciPy、Seaborn和Scikit-learn等,这些库在数据分析中起着很重要的作用,有关这些库的使用将在后面模块中做详细介绍。
1.NumPy
NumPy(NumericalPython)是Python科学计算的基础包,是机器学习框架的基础类库。
2.Pandas
Pandas是Python数据分析的核心库,它是基于NumPy构建的含有复杂数据结构和工具的数据分析包。Pandas纳入大量库和标准数据模型,提供了大量的可快速便捷处理数据的函数和高效操作大型数据集所需的工具。
Pandas围绕Series和DataFr