机器学习基础及应用项目4 使用k近邻算法实现分类与回归.pptx

基本信息

文件名称：机器学习基础及应用项目4 使用k近邻算法实现分类与回归.pptx

文件大小：10.39 MB

总页数：57 页

更新时间：2025-05-19

总字数：约1.13万字

文档摘要

使用k近邻算法实现分类与回归

项目4

知识目标

掌握k近邻算法解决分类问题的基本原理。

掌握k近邻算法解决回归问题的基本原理。

了解k近邻算法的常见问题及解决方法。

掌握k近邻算法的Sklearn实现方法。

技能目标

能够使用k近邻算法训练分类模型。

能够使用k近邻算法训练回归模型。

能够编写程序，寻找最优的k值。

素养目标

了解科技前沿新应用，开阔视野，抓住机遇，展现新作为。

增强创新意识，培养探究精神。

表4-1葡萄酒数据集（部分）

14.23

1.71

2.43

15.6

127

2.8

3.06

.28

2.29

5.64

1.04

3.92

1065

13.2

1.78

2.14

11.2

100

2.65

2.76

.26

1.28

4.38

1.05

3.4

1050

13.16

2.36

2.67

18.6

101

2.8

3.24

2.81

5.68

1.03

3.17

1185

…

12.37

.94

1.36

10.6

1.98

.57

.28

.42

1.95

1.05

1.82

520

12.33

1.1

2.28

101

2.05

1.09

.63

.41

3.27

1.25

1.67

680

12.64

1.36

2.02

16.8

100

2.02

1.41

.53

.62

5.75

.98

1.59

450

…

12.86

1.35

2.32

122

1.51

1.25

.21

.94

4.1

.76

1.29

630

12.88

2.99

2.4

104

1.3

1.22

.24

.83

5.4

.74

1.42

530

12.81

2.31

2.4

1.15

1.09

.27

.83

5.7

.66

1.36

560

按照项目要求，使用k近邻算法对葡萄酒进行分类的步骤分解如下。

使用k近邻算法训练基于葡萄酒数据集的分类模型，需要先理解k近邻算法的基本原理。

本项目将对相关知识进行介绍，包括k近邻算法解决分类与回归问题的基本原理，k近邻算法的常见问题及解决方法，以及k近邻算法的Sklearn实现方法。

全班学生以3～5人为一组进行分组，各组选出组长，组长组织组员扫码观看“k近邻算法基本原理”视频，讨论并回答下列问题。

k近邻算法的基本原理

k近邻算法的Sklearn实现

/项目导航/

k近邻算法的基本原理

4.1k近邻算法的基本原理

4.1.1k近邻算法的原理分析

例如，图中有两类不同的样本数据D1和D2，D1用小正方形表示，D2用实心圆表示，小三角形表示新输入的未知类别样本。现在要对新样本进行分类，判断它属于D1还是D2。

k近邻算法解决分类问题

k近邻分类的过程：先主观设置k的值，假设k的值为5，然后通过距离计算找出与新样本距离最近的5个样本点，从图中可以看出，这5个近邻点中有4个属于D2类，1个属于D1类，从而可判定新样本属于D2类。

4.1.1k近邻算法的原理分析

回归问题研究的是一组变量与另一组变量之间的关系，其预测结果是连续的数值。

使用k近邻算法解决回归问题时，仍然需要计算待测样本与所在特征空间中每个样本的距离，基于计算结果，找到与待测样本最邻近的k个样本，通过对这k个样本的某个值（如平均值）进行统计，依据各个待测样本的统计值画出回归曲线，进而预测新样本的值。

4.1.1k近邻算法的原理分析

k近邻算法解决回归问题

使用k近邻算法建立回归模型的过程：先主观设置k的值，假设k的值为5，通过计算找到所在特征空间中与待测样本距离最近的5个样本，然后计算这5个样本的某个统计值（如平均值），将这个值作为待测样本的预测值，依据各个样本的预测值得到回归曲线。

4.1.2k近邻算法的常见问题及解决方法

k近邻算法通常用于光学字符识别（opticalcharacterrecognition,OCR）系统、电商平台用户分类、银行数据预测客户行为等领域。

在实际应用中，k近邻算法可能会遇到以下几个需要解决的问题。

4.1.2k近邻算法的常见问题及解决方法

k近邻算法解决分类问题时，经常会遇到这样的问题：当样本分布不平衡时（即数据集中一个类的样本容量很大，而其他类的样本容量很小），很可能会出现对新样本的预测不准确的情况。

因为样本分布不均匀，当输入一个新样本时，该样本的k个邻居中大数量类的样本占多数，很可能将新样本预测为大数量