基本信息
文件名称:数据采集、清洗与标注 教案 第5章 数据清洗基础.docx
文件大小:45.34 KB
总页数:2 页
更新时间:2025-11-06
总字数:约小于1千字
文档摘要

??第5章数据清洗基础(2理论+4实验)??

??教案设计??

??教学目标??

理解ETL流程与质量评估指标(缺失率/一致性)。

掌握OpenRefine去重与标准化操作。

??重点难点??

重点:正则表达式清洗文本。

难点:聚类算法检测异常值(简单示例)。

??教学方法??

??理论课??:

案例:医院病历数据清洗(字段缺失/单位不统一)。

??实验课??:

任务1:用OpenRefine清洗脏数据CSV。

任务2:Python实现电话号码格式归一化。

教学过程

??问题诊断??(30分钟)

展示脏数据案例:

??工具实战??(180分钟)

OpenRefi