基本信息
文件名称:数据挖掘原理、算法与应用 (Python语言描述)【第十一章】机器学习流水线.pptx
文件大小:838.33 KB
总页数:34 页
更新时间:2025-12-12
总字数:约7.59千字
文档摘要
第十一章流水线数据挖掘原理、算法与应用(Python语言描述)
流水线的定义流水线(Pipeline)也称管道。将数据挖掘的不同步骤组合在一起,封装所有的数据挖掘处理步骤,例如特征选择、归一化和分类,形成复杂的估计器,只需要对数据调用fit拟合一次,就可以拟合整个估计序列;结合网格搜索可以一次对流水线中所有估计器的参数进行搜索;在交叉验证中,流水线有助于避免将测试数据中的统计信息泄漏到训练好的模型中。
学习目标(1)了解流水线的结构。(2)了解构建预处理流水线的方法。(3)了解构建带学习器的流水线构建方法。(4)了解网格搜索流水线中模型参数的方法。(5)了解网格搜索选择流水线中模型的方法