基本信息
文件名称:Imbalanced-learn:集成学习在不平衡数据集中的应用.docx
文件大小:30.53 KB
总页数:24 页
更新时间:2024-08-31
总字数:约2.48万字
文档摘要

PAGE1

PAGE1

Imbalanced-learn:集成学习在不平衡数据集中的应用

1Imbalanced-learn:集成学习在不平衡数据集中的应用

1.1简介

1.1.1不平衡数据集的概念

在机器学习中,不平衡数据集指的是数据集中不同类别的样本数量存在显著差异的情况。例如,在欺诈检测、疾病诊断等场景中,正常样本的数量远多于异常样本,这种数据分布的不均衡性会直接影响模型的训练效果,导致模型偏向于多数类,对少数类的识别能力下降。

1.1.2集成学习的基本原理

集成学习是一种通过结合多个模型的预测来提高预测准确性的方法。它基于“群体智慧”的理念,认为多个弱模型的组合