基本信息
文件名称:Python爬虫大数据采集与挖掘 第二版-教案.docx
文件大小:52.06 KB
总页数:6 页
更新时间:2025-04-01
总字数:约3.62千字
文档摘要

PAGE9

Python爬虫大数据采集与挖掘

PAGE4

Python爬虫大数据采集与挖掘课程教案

总课堂学时:36(根据实际情况调整)

第1章概述(共2学时)

课次:1(2学时)

(1)对应章:第1章概述。

(2)教学内容:互联网大数据特征、技术、应用与发展趋势。

(3)教学方式:课堂讲授。

(4)教学重点:互联网大数据处理的技术体系、合规性。

(5)教学难点:爬虫的5个技术特性

(6)教学过程:结合搜索引擎、舆情监测等讲解互联网大数据的作用、特征、技术体系、合规性要求等。

(7)作业:无

第2章Web页面及相关处理技术(共2学时)

课次:2(2学时)

(1)对应章:第2章。

(2)教学内容:Web页面相关规范、正则表达式、相关Python编程基础

(3)教学方式:课堂讲授。

(4)教学重点:网页编码体系、正则表达式

(5)教学难点:正则表达式提取超链接

(6)教学过程:结合实际网页,介绍常见标签、页面编码及处理方法

(7)作业:思考题2、3、5

第3章Web应用架构与协议(共2学时)

课次:3(2学时)

(1)对应章:第3章。

(2)教学内容:Web服务器相关知识、Robots协议、HTTP协议等

(3)教学方式:课堂讲授。

(4)教学重点:Robots协议、HTTP报文及查看方法

(5)教学难点:Robots对请求许可的定义、HTTP请求的头部信息

(6)教学过程:结合实际网页,介绍Robots协议、HTTP报文、Cookies及查看方法

(7)作业:思考题3、5

第4章普通爬虫页面采集技术与Python实现(共4学时)

课次:4(2学时)

(1)对应章:4.1-4.3。

(2)教学内容:普通爬虫体系结构、异常处理、超链接提取

(3)教学方式:课堂讲授+实践。

(4)教学重点:爬虫体系结构、requests.get、异常处理

(5)教学难点:HTTP请求的头部信息及在requests.get中的使用、相对链接和绝对链接的差别

(6)教学过程:结合实际静态网页的采集,介绍HTTP请求头的在程序中的使用,介绍内容获取和超链接提取、针对不同网站进行异常错误处理演示等

(7)作业:思考题3、4

课次:5(2学时)

(1)对应章:4.4-4.5

(2)教学内容:robots、爬虫策略与实现、爬虫的多线程技术

(3)教学方式:课堂讲授。

(4)教学重点:RobotsPython包的使用、两种遍历策略、PageRank算法

(5)教学难点:对于一个Web网站的遍历、多线程技术理解与实现

(6)教学过程:Robots编程调用,结合某个抽象连接图介绍两种遍历策略及相关数据结构和实现、PageRank算法、爬行策略的综合考虑、多线程技术实现

(7)作业:思考题6、8

第5章动态页面采集技术与Python实现(共4学时)

课次:6(2学时)

(1)对应章:第五章。

(2)教学内容:动态网页的形式、采集和实现

(3)教学方式:课堂讲授+实践。

(4)教学重点:Ajax的分析与使用

(5)教学难点:Ajax的分析与使用、Cookie及使用

(6)教学过程:结合实际动态网页的采集,介绍Ajax的跟踪分析、Cookies的使用

(7)作业:思考题3、4

课次:7(2学时)

(1)对应章:第五章。

(2)教学内容:使用URL参数和模拟浏览器进行动态网页采集

(3)教学方式:课堂讲授。

(4)教学重点:带参数的URL、模拟浏览器技术

(5)教学难点:POST和GET的区别、URL携带参数的方法

(6)教学过程:结合实际动态网页的采集,介绍URL请求;针对登录型复杂页面介绍模拟浏览器的配置、使用方法

(7)作业:思考题2、5

第6章Web信息提取与Python实现(共2学时)

课次:8(2学时)

(1)对应章:第六章。

(2)教学内容:Web信息提取、存储、不同的提取Python包选择介绍

(3)教学方式:课堂讲授。

(4)教学重点:BeautifulSoup的使用,JSON的解析

(5)教学难点:CCS、XPath的编写、SQLite的存储

(6)教学过程:结合实际网页介绍BeautifulSoup的使用,介绍三种存储方法。

(7)作业:无

第7章主题爬虫页面采集技术与Python实现(共2学时)

课次:9(2学时)

(1)对应章:第七章。

(2)教学内容:主题爬虫应用场景、技术框架、主题相关技术

(3)教学方式:课堂讲授。

(4)教学重点:主题爬虫技术框架、主题相关度计算

(5)教学难点:主题表示与相关度计算

(6)教学过程:结合实际新闻频道,介绍与预设主题相关的页面采集

(7)作业:无

第8章DeepWeb爬虫与Python实现(共2学时)

课次:10(2学时)

(1)对应章:第八章。

(2)教学内容:Deep