PAGE
第PAGE1页,共NUMPAGES2页
XXXX学院
学院级
学院级专业班学号姓名
密封线
密封线内不要答题
A卷
课程名称:机器学习
课程代码:XXXX
是否开卷考试:是□否√
注意事项:
1.满分100分。要求卷面整洁、字迹工整。
2.考生必须将姓名、班级、学号等信息完整、准确、清楚地填写在试卷规定的地方,否则视为废卷。
3.用签字笔、钢笔或圆珠笔答题。
4.如有答题纸,答案请全部写在答题纸上,否则不给分;考完请将试卷和答题纸分别一同交回。
题号
一
二
三
四
总分
评阅(统分)教师
得分
上机操作题
一、文件xiti03_06.csv是一个4分类数据集,数据有3个维度,分别是x、y、z。目标字段为label,类标号为1、2、3、4。请利用Python的sklearn的支持向量机模型构建分类器,80%的数据作为训练集,20%的数据作为测试集。输出准确率、加权精确率、加权召回率、F1分数,并判断[2.12,2.10,1.89],[1.15,2.05,2.88]这两个新样本是什么类型。
将程序运行结果截图粘贴在下方,并进行回答。(25分)
二、某地区旅游业的年收入可能与该地区人口数量、每月人均可支配收入、公路与轨道交通里程数有关。
(1)设因变量为旅游业年收入,自变量为地区人口数量、每月人均可支配收入、公路与轨道交通里程数。回归方程为:y?=β?_0+β?_1x_1+β?_2x_2+β?_3x_3。确定回归系数。
(2)计算回归方程的拟合优度判断系数、修正的拟合优度判断系数。
(3)进行线性关系显著性检验,取显著性水平α=0.05。F0.05(3,3)=9.28。
(4)进行回归参数的显著性检验,取显著性水平α=0.05。t0.05/2(3)=3.182。
(5)根据(4)的结果,删除对因变量影响不显著的自变量,重新确定回归方程。
将程序运行结果粘贴到下方,并辅以文字说明。(25分)
三、带有评分的电子商务消费数据集,对应文件为xiti06_02.csv。利用基于模型的协同过滤算法,编写Spark代码,设置内部特征为3,向所有的用户进行商品推荐,推荐该用户没有购买的预测评分最高的商品。
将程序运行结果粘贴到下方,并辅以文字说明。(25分)
四、编写spark程序,对葡萄酒数据进行PCA降维处理。输出每个主成分维度的解释方差,并以此作为参考指标,调整保留的维度数量,使得每个主成分维度的解释方差之和大于等于70%。
将程序运行结果粘贴到下方,并辅以文字说明。(25分)