Python爬虫大数据采集与挖掘第二版-教案.docx

基本信息

文件名称：Python爬虫大数据采集与挖掘第二版-教案.docx

文件大小：52.06 KB

总页数：6 页

更新时间：2025-04-01

总字数：约3.62千字

文档摘要

PAGE9

Python爬虫大数据采集与挖掘

PAGE4

Python爬虫大数据采集与挖掘课程教案

总课堂学时：36（根据实际情况调整）

第1章概述（共2学时）

课次：1（2学时）

（1）对应章：第1章概述。

（2）教学内容：互联网大数据特征、技术、应用与发展趋势。

（3）教学方式：课堂讲授。

（4）教学重点：互联网大数据处理的技术体系、合规性。

（5）教学难点：爬虫的5个技术特性

（6）教学过程：结合搜索引擎、舆情监测等讲解互联网大数据的作用、特征、技术体系、合规性要求等。

（7）作业：无

第2章Web页面及相关处理技术（共2学时）

课次：2（2学时）

（1）对应章：第2章。

（2）教学内容：Web页面相关规范、正则表达式、相关Python编程基础

（3）教学方式：课堂讲授。

（4）教学重点：网页编码体系、正则表达式

（5）教学难点：正则表达式提取超链接

（6）教学过程：结合实际网页，介绍常见标签、页面编码及处理方法

（7）作业：思考题2、3、5

第3章Web应用架构与协议（共2学时）

课次：3（2学时）

（1）对应章：第3章。

（2）教学内容：Web服务器相关知识、Robots协议、HTTP协议等

（3）教学方式：课堂讲授。

（4）教学重点：Robots协议、HTTP报文及查看方法

（5）教学难点：Robots对请求许可的定义、HTTP请求的头部信息

（6）教学过程：结合实际网页，介绍Robots协议、HTTP报文、Cookies及查看方法

（7）作业：思考题3、5

第4章普通爬虫页面采集技术与Python实现（共4学时）

课次：4（2学时）

（1）对应章：4.1-4.3。

（2）教学内容：普通爬虫体系结构、异常处理、超链接提取

（3）教学方式：课堂讲授+实践。

（4）教学重点：爬虫体系结构、requests.get、异常处理

（5）教学难点：HTTP请求的头部信息及在requests.get中的使用、相对链接和绝对链接的差别

（6）教学过程：结合实际静态网页的采集，介绍HTTP请求头的在程序中的使用，介绍内容获取和超链接提取、针对不同网站进行异常错误处理演示等

（7）作业：思考题3、4

课次：5（2学时）

（1）对应章：4.4-4.5

（2）教学内容：robots、爬虫策略与实现、爬虫的多线程技术

（3）教学方式：课堂讲授。

（4）教学重点：RobotsPython包的使用、两种遍历策略、PageRank算法

（5）教学难点：对于一个Web网站的遍历、多线程技术理解与实现

（6）教学过程：Robots编程调用，结合某个抽象连接图介绍两种遍历策略及相关数据结构和实现、PageRank算法、爬行策略的综合考虑、多线程技术实现

（7）作业：思考题6、8

第5章动态页面采集技术与Python实现（共4学时）

课次：6（2学时）

（1）对应章：第五章。

（2）教学内容：动态网页的形式、采集和实现

（3）教学方式：课堂讲授+实践。

（4）教学重点：Ajax的分析与使用

（5）教学难点：Ajax的分析与使用、Cookie及使用

（6）教学过程：结合实际动态网页的采集，介绍Ajax的跟踪分析、Cookies的使用

（7）作业：思考题3、4

课次：7（2学时）

（1）对应章：第五章。

（2）教学内容：使用URL参数和模拟浏览器进行动态网页采集

（3）教学方式：课堂讲授。

（4）教学重点：带参数的URL、模拟浏览器技术

（5）教学难点：POST和GET的区别、URL携带参数的方法

（6）教学过程：结合实际动态网页的采集，介绍URL请求；针对登录型复杂页面介绍模拟浏览器的配置、使用方法

（7）作业：思考题2、5

第6章Web信息提取与Python实现（共2学时）

课次：8（2学时）

（1）对应章：第六章。

（2）教学内容：Web信息提取、存储、不同的提取Python包选择介绍

（3）教学方式：课堂讲授。

（4）教学重点：BeautifulSoup的使用，JSON的解析

（5）教学难点：CCS、XPath的编写、SQLite的存储

（6）教学过程：结合实际网页介绍BeautifulSoup的使用，介绍三种存储方法。

（7）作业：无

第7章主题爬虫页面采集技术与Python实现（共2学时）

课次：9（2学时）

（1）对应章：第七章。

（2）教学内容：主题爬虫应用场景、技术框架、主题相关技术

（3）教学方式：课堂讲授。

（4）教学重点：主题爬虫技术框架、主题相关度计算

（5）教学难点：主题表示与相关度计算

（6）教学过程：结合实际新闻频道，介绍与预设主题相关的页面采集

（7）作业：无

第8章DeepWeb爬虫与Python实现（共2学时）

课次：10（2学时）

（1）对应章：第八章。

（2）教学内容：Deep