《Python数据分析基础教程(第2版)》
教
案
《Python数据分析基础教程(第2版)》人民邮电出版社 作者:郑丹青
PAGE1
课程基本信息
课程名称
Python数据分析基础教程
授课班级
授课课题名
机器学习库scikit-learn入门—
机器学习概述
计划课时
4课时
授课时间
第周第课时
课型
教学做一体化
教学目标
了解机器学习的基本概念。
了解scikit-learn的基本概念。
掌握scikit-learn的安装与使用方法。
教学重点
机器学习的基本概念。
scikit-learn的基本概念。
教学难点
scikit-learn的安装与使用方法
教法与学法
教法:案例教学法;
学法:探究学习、小组合作学习。
教学过程
【课前任务】
自主学习
scikit-learn测试、安装与导入。
【课中任务】
分组讨论
针对scikit-learn测试、安装与导入中遇到问题开展小组讨论,互帮互学,解决软件安装中问题。
教师组织小组讨论,并根据学生疑难问题,统一进行解答。
【任务引入】
分组讨论
什么是机器学习?
【新课讲授】
任务一:机器学习概述
知识点讲解
1.机器学习的定义
机器学习是人工智能的一个分支。从广义上来说,机器学习是一种能够赋予机器学习的能力,这种学习能力是不需要通过编程来实现的。但从实践的意义上来说,机器学习是一种利用数据,训练出模型,然后使用模型预测未知数据的方法。下面通过一个机器学习的案例来理解机器学习的定义。
在现实生活中,银行经常会收到客户的贷款申请,这时银行就需要根据客户的年龄、是否有工作、是否有住房和信贷情况等来预测是否批准客户的贷款申请。在预测是否批准客户的贷款申请时,首先根据客户贷款申请的历史数据,运用机器学习算法,通过训练获得机器学习模型。一般机器学习模型至少考虑两个量:一个是因变量,也就是希望预测的结果,即贷款是否被批准的判断;另一个是自变量,即用来预测贷款是否被批准的量,如年龄和是否有工作等。而用于预测贷款是否被批准的机器学习模型,也称为决策树,如图9-1所示。
另外,影响贷款是否被批准还会与是否有住房和信贷情况等方面的因素有关,因此,可通过增加自变量,将这些因素综合考虑到机器学习模型中。
由此可见,机器学习就是将历史数据通过机器学习算法进行处理,这个处理过程在机器学习中叫做“训练”,处理的结果称为“模型”,可用来对新的数据进行预测。在机器学习中,对新数据的预测过程叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”是训练过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。机器学习流程如图9-2所示。
图9-2机器学习流程
2、机器学习的步骤
根据机器学习的定义,总结出机器学习的步骤如下。
(1)机器学习分为两个阶段,一个是“训练”阶段,另一个是“预测”阶段。
(2)机器学习的步骤如下。
①定义一些函数,这些函数是根据不同的参数建立起来的,不同参数的组合构建不同的函数(模型)。
②定义一个度量标准,用于衡量函数(模型)的优劣。
③根据度量标准,从所定义的一些函数(模型)中选择一个最佳的函数(模型)。
④将“训练”好的函数(模型)应用到测试集的数据中,以完成数据的预测。
3.机器学习的方法
机器学习的方法一般是通过n个样本数据(训练样本)去预测未知的数据(测试样本)属性。如果每个样本包含有多个属性(多维数据)被称为特征(Features)。机器学习的方法分为监督学习和非监督学习两大类。
(1)监督学习
监督学习是从给定的训练集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练样本包含对应的标签,如识别问题。训练集包括输入和输出,也就是特征和目标,其中,目标是由人工标注的标签。常见的监督学习算法包括回归和分类。
③监督学习算法有线性回归、逻辑回归、神经网络和SVM(支持向量机)。
(2)非监督学习
非监督学习的训练样本不包含对应的标签,常见的非监督学习算法有聚类算法。
4、机器学习的应用
机器学习已经受到十分广泛地应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等。
机器学习还与人工智能和深度学习有密切的关系,人工智能是机器学习的父类,深度学习则是机器学习的子类。
学生自主提问,教师对疑难问题进行解答。
任