使用k近邻算法实现分类与回归
项目4
知识目标
掌握k近邻算法解决分类问题的基本原理。
掌握k近邻算法解决回归问题的基本原理。
了解k近邻算法的常见问题及解决方法。
掌握k近邻算法的Sklearn实现方法。
技能目标
能够使用k近邻算法训练分类模型。
能够使用k近邻算法训练回归模型。
能够编写程序,寻找最优的k值。
素养目标
了解科技前沿新应用,开阔视野,抓住机遇,展现新作为。
增强创新意识,培养探究精神。
表4-1葡萄酒数据集(部分)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
1
14.23
1.71
2.43
15.6
127
2.8
3.06
.28
2.29
5.64
1.04
3.92
1065
1
13.2
1.78
2.14
11.2
100
2.65
2.76
.26
1.28
4.38
1.05
3.4
1050
1
13.16
2.36
2.67
18.6
101
2.8
3.24
.3
2.81
5.68
1.03
3.17
1185
…
…
…
…
…
…
…
…
…
…
…
…
…
…
2
12.37
.94
1.36
10.6
88
1.98
.57
.28
.42
1.95
1.05
1.82
520
2
12.33
1.1
2.28
16
101
2.05
1.09
.63
.41
3.27
1.25
1.67
680
2
12.64
1.36
2.02
16.8
100
2.02
1.41
.53
.62
5.75
.98
1.59
450
…
…
…
…
…
…
…
…
…
…
…
…
…
…
3
12.86
1.35
2.32
18
122
1.51
1.25
.21
.94
4.1
.76
1.29
630
3
12.88
2.99
2.4
20
104
1.3
1.22
.24
.83
5.4
.74
1.42
530
3
12.81
2.31
2.4
24
98
1.15
1.09
.27
.83
5.7
.66
1.36
560
按照项目要求,使用k近邻算法对葡萄酒进行分类的步骤分解如下。
使用k近邻算法训练基于葡萄酒数据集的分类模型,需要先理解k近邻算法的基本原理。
本项目将对相关知识进行介绍,包括k近邻算法解决分类与回归问题的基本原理,k近邻算法的常见问题及解决方法,以及k近邻算法的Sklearn实现方法。
全班学生以3~5人为一组进行分组,各组选出组长,组长组织组员扫码观看“k近邻算法基本原理”视频,讨论并回答下列问题。
k近邻算法的基本原理
k近邻算法的Sklearn实现
/项目导航/
k近邻算法的基本原理
9
4.1k近邻算法的基本原理
4.1.1k近邻算法的原理分析
10
4.1.1k近邻算法的原理分析
11
例如,图中有两类不同的样本数据D1和D2,D1用小正方形表示,D2用实心圆表示,小三角形表示新输入的未知类别样本。现在要对新样本进行分类,判断它属于D1还是D2。
k近邻算法解决分类问题
k近邻分类的过程:先主观设置k的值,假设k的值为5,然后通过距离计算找出与新样本距离最近的5个样本点,从图中可以看出,这5个近邻点中有4个属于D2类,1个属于D1类,从而可判定新样本属于D2类。
4.1.1k近邻算法的原理分析
12
回归问题研究的是一组变量与另一组变量之间的关系,其预测结果是连续的数值。
使用k近邻算法解决回归问题时,仍然需要计算待测样本与所在特征空间中每个样本的距离,基于计算结果,找到与待测样本最邻近的k个样本,通过对这k个样本的某个值(如平均值)进行统计,依据各个待测样本的统计值画出回归曲线,进而预测新样本的值。
4.1.1k近邻算法的原理分析
13
k近邻算法解决回归问题
使用k近邻算法建立回归模型的过程:先主观设置k的值,假设k的值为5,通过计算找到所在特征空间中与待测样本距离最近的5个样本,然后计算这5个样本的某个统计值(如平均值),将这个值作为待测样本的预测值,依据各个样本的预测值得到回归曲线。
4.1.2k近邻算法的常见问题及解决方法
14
k近邻算法通常用于光学字符识别(opticalcharacterrecognition,OCR)系统、电商平台用户分类、银行数据预测客户行为等领域。
在实际应用中,k近邻算法可能会遇到以下几个需要解决的问题。
4.1.2k近邻算法的常见问题及解决方法
15
k近邻算法解决分类问题时,经常会遇到这样的问题:当样本分布不平衡时(即数据集中一个类的样本容量很大,而其他类的样本容量很小),很可能会出现对新样本的预测不准确的情况。
因为样本分布不均匀,当输入一个新样本时,该样本的k个邻居中大数量类的样本占多数,很可能将新样本预测为大数量