基本信息
文件名称:数据挖掘:特征工程:特征构造与衍生.docx
文件大小:31.29 KB
总页数:20 页
更新时间:2025-08-24
总字数:约1.58万字
文档摘要
PAGE1
PAGE1
数据挖掘:特征工程:特征构造与衍生
1数据挖掘概述
1.1数据挖掘的基本概念
数据挖掘(DataMining)是一种从大量数据中提取有用信息的过程,这些信息可以是模式、关联、趋势或异常。数据挖掘不仅仅是一种技术,它是一个多步骤的流程,涉及数据清洗、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等环节。数据挖掘的目标是发现数据中的隐藏知识,为决策提供支持。
1.1.1示例:数据清洗
数据清洗是数据挖掘流程中的重要步骤,用于处理数据中的缺失值、噪声和不一致性。以下是一个使用Python的pandas库进行数据清洗的简单示例:
import