基本信息
文件名称:Python数据分析基础教程(微课版)(第2版)课件 第9章机器学习库scikit-learn入门.pptx
文件大小:1015.28 KB
总页数:39 页
更新时间:2025-06-10
总字数:约9.28千字
文档摘要

;1;1.机器学习的定义

机器学习是人工智能的一个分支。从广义上来说,机器学习是一种能够赋予机器学习的能力,这种学习能力是不需要通过编程来实现的。但从实践的意义上来说,机器学习是一种利用数据,训练出模型,然后使用模型预测未知数据的方法。下面通过一个机器学习的案例来理解机器学习的定义。;1.机器学习的定义

在现实生活中,银行经常会收到客户的贷款申请,这时银行就需要根据客户的年龄、是否有工作、是否有住房和信贷情况等来预测是否批准客户的贷款申请。在预测是否批准客户的贷款申请时,首先根据客户贷款申请的历史数据,运用机器学习算法,通过训练获得机器学习模型,然后进行预测并做出判断。一般机器学习模型至少考虑两个量:一个是因变量,也就是希望预测的结果,即贷款是否被批准的判断;另一个是自变量,即用来预测贷款是否被批准的量,如年龄和是否有工作等。而用于预测贷款是否被批准的机器学习模型,也称为决策树,如图9-1所示。;;1.机器学习的定义

由此可见,机器学习就是将历史数据通过机器学习算法进行处理,这个处理过程在机器学习中叫作“训练”,处理的结果称为“模型”,可用来对新的数据进行预测。在机器学习中,对新数据的预测过程叫作“预测”。“训练”与“预测”是机器学习的两个过程,“模型”是训练过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。机器学习流程如图9-2所示;1.机器学习的定义

在机器学习中,一种通用的做法是将数据分为两个部分,一部分用于学习,称为训练集(trainingset);另一部分用于测试,称为测试集(testingset)。训练集中的数据是有标签的,而测试集中的数据是没有标签的。机器学习的目标就是要寻找一个函数,该函数是通过学习后所获得的最佳模型。所谓最佳模型是指通过该模型学习后的输出值与实际值的误差最小,只有找到最佳模型,机器学习的模型才算是训练好了。;2、机器学习的步骤

根据机器学习的定义,总结出机器学习的步骤如下。

(1)机器学习分为两个阶段,一个是“训练”阶段,另一个是“预测”阶段。

(2)机器学习的步骤如下。

①定义一些函数,这些函数是根据不同的参数建立起来的,不同参数的组合构建不同的函数(模型)。

②定义一个度量标准,用于衡量函数(模型)的优劣。

③根据度量标准,从所定义的一些函数(模型)中选择一个最佳的函数(模型)。

④将“训练”好的函数(模型)应用到测试集的数据中,以完成数据的预测。;3.机器学习的方法

机器学习的方法一般是通过n个样本数据(训练样本)去预测未知的数据(测试样本)属性。如果每个样本包含有多个属性(多维数据)被称为特征(Features)。机器学习的方法分为监督学习和非监督学习两大类。

(1)监督学习

监督学习是从给定的训练集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练样本包含对应的标签,如识别问题。训练集包括输入和输出,也就是特征和目标,其中,目标是由人工标注的标签。常见的监督学习算法包括回归和分类。③监督学习算法有线性回归、逻辑回归、神经网络和SVM(支持向量机)。

(2)非监督学习

非监督学习的训练样本不包含对应的标签,常见的非监督学习算法有聚类算法。;4、机器学习的应用

机器学习已经受到十分广泛地应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等。

机器学习还与人工智能和深度学习有密切的关系,人工智能是机器学习的父类,深度学习则是机器学习的子类。;scikit-learn(简称sklearn)是面向Python的免费机器学习库。scikit-learn不仅包括分类、回归、聚类算法,如SVM(支持向量机)、随机森林、K-means等,而且包括降维、模型选择和数据预处理等方法。scikit-learn支持NumPy和SciPy,以及Matplotlib。

1.scikit-learn的数据表示

机器学习是根据数据创建模型,因此,在机器学习中,首先应考虑如何表示数据,以便于计算机理解。scikit-learn中数据表示的最佳方式就是数据表。一个基本的数据表就是一个二维数据