Python数据分析基础教程（微课版）（第2版）课件第9章机器学习库scikit-learn入门.pptx

基本信息

文件名称：Python数据分析基础教程（微课版）（第2版）课件第9章机器学习库scikit-learn入门.pptx

文件大小：1015.28 KB

总页数：39 页

更新时间：2025-06-10

总字数：约9.28千字

文档摘要

;1;1.机器学习的定义

机器学习是人工智能的一个分支。从广义上来说，机器学习是一种能够赋予机器学习的能力，这种学习能力是不需要通过编程来实现的。但从实践的意义上来说，机器学习是一种利用数据，训练出模型，然后使用模型预测未知数据的方法。下面通过一个机器学习的案例来理解机器学习的定义。;1.机器学习的定义

在现实生活中，银行经常会收到客户的贷款申请，这时银行就需要根据客户的年龄、是否有工作、是否有住房和信贷情况等来预测是否批准客户的贷款申请。在预测是否批准客户的贷款申请时，首先根据客户贷款申请的历史数据，运用机器学习算法，通过训练获得机器学习模型，然后进行预测并做出判断。一般机器学习模型至少考虑两个量：一个是因变量，也就是希望预测的结果，即贷款是否被批准的判断；另一个是自变量，即用来预测贷款是否被批准的量，如年龄和是否有工作等。而用于预测贷款是否被批准的机器学习模型，也称为决策树，如图9-1所示。;;1.机器学习的定义

由此可见，机器学习就是将历史数据通过机器学习算法进行处理，这个处理过程在机器学习中叫作“训练”，处理的结果称为“模型”，可用来对新的数据进行预测。在机器学习中，对新数据的预测过程叫作“预测”。“训练”与“预测”是机器学习的两个过程，“模型”是训练过程的中间输出结果，“训练”产生“模型”，“模型”指导“预测”。机器学习流程如图9-2所示;1.机器学习的定义

在机器学习中，一种通用的做法是将数据分为两个部分，一部分用于学习，称为训练集（trainingset）；另一部分用于测试，称为测试集（testingset）。训练集中的数据是有标签的，而测试集中的数据是没有标签的。机器学习的目标就是要寻找一个函数，该函数是通过学习后所获得的最佳模型。所谓最佳模型是指通过该模型学习后的输出值与实际值的误差最小，只有找到最佳模型，机器学习的模型才算是训练好了。;2、机器学习的步骤

根据机器学习的定义，总结出机器学习的步骤如下。

（1）机器学习分为两个阶段，一个是“训练”阶段，另一个是“预测”阶段。

（2）机器学习的步骤如下。

①定义一些函数，这些函数是根据不同的参数建立起来的，不同参数的组合构建不同的函数（模型）。

②定义一个度量标准，用于衡量函数（模型）的优劣。

③根据度量标准，从所定义的一些函数（模型）中选择一个最佳的函数（模型）。

④将“训练”好的函数（模型）应用到测试集的数据中，以完成数据的预测。;3.机器学习的方法

机器学习的方法一般是通过n个样本数据（训练样本）去预测未知的数据（测试样本）属性。如果每个样本包含有多个属性（多维数据）被称为特征（Features）。机器学习的方法分为监督学习和非监督学习两大类。

（1）监督学习

监督学习是从给定的训练集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练样本包含对应的标签，如识别问题。训练集包括输入和输出，也就是特征和目标，其中，目标是由人工标注的标签。常见的监督学习算法包括回归和分类。③监督学习算法有线性回归、逻辑回归、神经网络和SVM（支持向量机）。

（2）非监督学习

非监督学习的训练样本不包含对应的标签，常见的非监督学习算法有聚类算法。;4、机器学习的应用

机器学习已经受到十分广泛地应用，例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等。

机器学习还与人工智能和深度学习有密切的关系，人工智能是机器学习的父类，深度学习则是机器学习的子类。;scikit-learn（简称sklearn）是面向Python的免费机器学习库。scikit-learn不仅包括分类、回归、聚类算法，如SVM（支持向量机）、随机森林、K-means等，而且包括降维、模型选择和数据预处理等方法。scikit-learn支持NumPy和SciPy，以及Matplotlib。

1．scikit-learn的数据表示

机器学习是根据数据创建模型，因此，在机器学习中，首先应考虑如何表示数据，以便于计算机理解。scikit-learn中数据表示的最佳方式就是数据表。一个基本的数据表就是一个二维数据