基本信息
文件名称:机器学习基础及应用项目4 使用k近邻算法实现分类与回归.pptx
文件大小:10.39 MB
总页数:57 页
更新时间:2025-05-19
总字数:约1.13万字
文档摘要

使用k近邻算法实现分类与回归

项目4

知识目标

掌握k近邻算法解决分类问题的基本原理。

掌握k近邻算法解决回归问题的基本原理。

了解k近邻算法的常见问题及解决方法。

掌握k近邻算法的Sklearn实现方法。

技能目标

能够使用k近邻算法训练分类模型。

能够使用k近邻算法训练回归模型。

能够编写程序,寻找最优的k值。

素养目标

了解科技前沿新应用,开阔视野,抓住机遇,展现新作为。

增强创新意识,培养探究精神。

表4-1葡萄酒数据集(部分)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

1

14.23

1.71

2.43

15.6

127

2.8

3.06

.28

2.29

5.64

1.04

3.92

1065

1

13.2

1.78

2.14

11.2

100

2.65

2.76

.26

1.28

4.38

1.05

3.4

1050

1

13.16

2.36

2.67

18.6

101

2.8

3.24

.3

2.81

5.68

1.03

3.17

1185

2

12.37

.94

1.36

10.6

88

1.98

.57

.28

.42

1.95

1.05

1.82

520

2

12.33

1.1

2.28

16

101

2.05

1.09

.63

.41

3.27

1.25

1.67

680

2

12.64

1.36

2.02

16.8

100

2.02

1.41

.53

.62

5.75

.98

1.59

450

3

12.86

1.35

2.32

18

122

1.51

1.25

.21

.94

4.1

.76

1.29

630

3

12.88

2.99

2.4

20

104

1.3

1.22

.24

.83

5.4

.74

1.42

530

3

12.81

2.31

2.4

24

98

1.15

1.09

.27

.83

5.7

.66

1.36

560

按照项目要求,使用k近邻算法对葡萄酒进行分类的步骤分解如下。

使用k近邻算法训练基于葡萄酒数据集的分类模型,需要先理解k近邻算法的基本原理。

本项目将对相关知识进行介绍,包括k近邻算法解决分类与回归问题的基本原理,k近邻算法的常见问题及解决方法,以及k近邻算法的Sklearn实现方法。

全班学生以3~5人为一组进行分组,各组选出组长,组长组织组员扫码观看“k近邻算法基本原理”视频,讨论并回答下列问题。

k近邻算法的基本原理

k近邻算法的Sklearn实现

/项目导航/

k近邻算法的基本原理

9

4.1k近邻算法的基本原理

4.1.1k近邻算法的原理分析

10

4.1.1k近邻算法的原理分析

11

例如,图中有两类不同的样本数据D1和D2,D1用小正方形表示,D2用实心圆表示,小三角形表示新输入的未知类别样本。现在要对新样本进行分类,判断它属于D1还是D2。

k近邻算法解决分类问题

k近邻分类的过程:先主观设置k的值,假设k的值为5,然后通过距离计算找出与新样本距离最近的5个样本点,从图中可以看出,这5个近邻点中有4个属于D2类,1个属于D1类,从而可判定新样本属于D2类。

4.1.1k近邻算法的原理分析

12

回归问题研究的是一组变量与另一组变量之间的关系,其预测结果是连续的数值。

使用k近邻算法解决回归问题时,仍然需要计算待测样本与所在特征空间中每个样本的距离,基于计算结果,找到与待测样本最邻近的k个样本,通过对这k个样本的某个值(如平均值)进行统计,依据各个待测样本的统计值画出回归曲线,进而预测新样本的值。

4.1.1k近邻算法的原理分析

13

k近邻算法解决回归问题

使用k近邻算法建立回归模型的过程:先主观设置k的值,假设k的值为5,通过计算找到所在特征空间中与待测样本距离最近的5个样本,然后计算这5个样本的某个统计值(如平均值),将这个值作为待测样本的预测值,依据各个样本的预测值得到回归曲线。

4.1.2k近邻算法的常见问题及解决方法

14

k近邻算法通常用于光学字符识别(opticalcharacterrecognition,OCR)系统、电商平台用户分类、银行数据预测客户行为等领域。

在实际应用中,k近邻算法可能会遇到以下几个需要解决的问题。

4.1.2k近邻算法的常见问题及解决方法

15

k近邻算法解决分类问题时,经常会遇到这样的问题:当样本分布不平衡时(即数据集中一个类的样本容量很大,而其他类的样本容量很小),很可能会出现对新样本的预测不准确的情况。

因为样本分布不均匀,当输入一个新样本时,该样本的k个邻居中大数量类的样本占多数,很可能将新样本预测为大数量