基本信息
文件名称:《Python数据挖掘与机器学习》习题答案 第七章-异常检测.docx
文件大小:14.63 KB
总页数:2 页
更新时间:2025-12-10
总字数:约2千字
文档摘要

异常检测

(1)思考题:近邻法的基本假设是什么?常见的距离度量方法有哪些?

答案:近邻法的核心假设是特征空间中距离相近的样本,其类别标签也大概率相同,即“物以类聚”,因此可以根据未知样本周围最相似的已知样本(近邻)来推断其类别,本质上利用的是局部相似性进行分类,无需对整体数据分布做预设。常见的距离度量方法包括:欧式距离(计算特征向量对应维度差值的平方和开根号,适用于连续型特征且量纲一致的场景);曼哈顿距离(计算差值绝对值之和,对异常值的鲁棒性优于欧式距离);切比雪夫距离(取各维度差值绝对值的最大值,适用于关注“最极端差异”的场景);余弦相似度(通过向量夹角的余弦衡量“方向一致性”,不受尺度影响