PAGE9
Python爬虫大数据采集与挖掘
PAGE4
Python爬虫大数据采集与挖掘课程教案
总课堂学时:36(根据实际情况调整)
第1章概述(共2学时)
课次:1(2学时)
(1)对应章:第1章概述。
(2)教学内容:互联网大数据特征、技术、应用与发展趋势。
(3)教学方式:课堂讲授。
(4)教学重点:互联网大数据处理的技术体系、合规性。
(5)教学难点:爬虫的5个技术特性
(6)教学过程:结合搜索引擎、舆情监测等讲解互联网大数据的作用、特征、技术体系、合规性要求等。
(7)作业:无
第2章Web页面及相关处理技术(共2学时)
课次:2(2学时)
(1)对应章:第2章。
(2)教学内容:Web页面相关规范、正则表达式、相关Python编程基础
(3)教学方式:课堂讲授。
(4)教学重点:网页编码体系、正则表达式
(5)教学难点:正则表达式提取超链接
(6)教学过程:结合实际网页,介绍常见标签、页面编码及处理方法
(7)作业:思考题2、3、5
第3章Web应用架构与协议(共2学时)
课次:3(2学时)
(1)对应章:第3章。
(2)教学内容:Web服务器相关知识、Robots协议、HTTP协议等
(3)教学方式:课堂讲授。
(4)教学重点:Robots协议、HTTP报文及查看方法
(5)教学难点:Robots对请求许可的定义、HTTP请求的头部信息
(6)教学过程:结合实际网页,介绍Robots协议、HTTP报文、Cookies及查看方法
(7)作业:思考题3、5
第4章普通爬虫页面采集技术与Python实现(共4学时)
课次:4(2学时)
(1)对应章:4.1-4.3。
(2)教学内容:普通爬虫体系结构、异常处理、超链接提取
(3)教学方式:课堂讲授+实践。
(4)教学重点:爬虫体系结构、requests.get、异常处理
(5)教学难点:HTTP请求的头部信息及在requests.get中的使用、相对链接和绝对链接的差别
(6)教学过程:结合实际静态网页的采集,介绍HTTP请求头的在程序中的使用,介绍内容获取和超链接提取、针对不同网站进行异常错误处理演示等
(7)作业:思考题3、4
课次:5(2学时)
(1)对应章:4.4-4.5
(2)教学内容:robots、爬虫策略与实现、爬虫的多线程技术
(3)教学方式:课堂讲授。
(4)教学重点:RobotsPython包的使用、两种遍历策略、PageRank算法
(5)教学难点:对于一个Web网站的遍历、多线程技术理解与实现
(6)教学过程:Robots编程调用,结合某个抽象连接图介绍两种遍历策略及相关数据结构和实现、PageRank算法、爬行策略的综合考虑、多线程技术实现
(7)作业:思考题6、8
第5章动态页面采集技术与Python实现(共4学时)
课次:6(2学时)
(1)对应章:第五章。
(2)教学内容:动态网页的形式、采集和实现
(3)教学方式:课堂讲授+实践。
(4)教学重点:Ajax的分析与使用
(5)教学难点:Ajax的分析与使用、Cookie及使用
(6)教学过程:结合实际动态网页的采集,介绍Ajax的跟踪分析、Cookies的使用
(7)作业:思考题3、4
课次:7(2学时)
(1)对应章:第五章。
(2)教学内容:使用URL参数和模拟浏览器进行动态网页采集
(3)教学方式:课堂讲授。
(4)教学重点:带参数的URL、模拟浏览器技术
(5)教学难点:POST和GET的区别、URL携带参数的方法
(6)教学过程:结合实际动态网页的采集,介绍URL请求;针对登录型复杂页面介绍模拟浏览器的配置、使用方法
(7)作业:思考题2、5
第6章Web信息提取与Python实现(共2学时)
课次:8(2学时)
(1)对应章:第六章。
(2)教学内容:Web信息提取、存储、不同的提取Python包选择介绍
(3)教学方式:课堂讲授。
(4)教学重点:BeautifulSoup的使用,JSON的解析
(5)教学难点:CCS、XPath的编写、SQLite的存储
(6)教学过程:结合实际网页介绍BeautifulSoup的使用,介绍三种存储方法。
(7)作业:无
第7章主题爬虫页面采集技术与Python实现(共2学时)
课次:9(2学时)
(1)对应章:第七章。
(2)教学内容:主题爬虫应用场景、技术框架、主题相关技术
(3)教学方式:课堂讲授。
(4)教学重点:主题爬虫技术框架、主题相关度计算
(5)教学难点:主题表示与相关度计算
(6)教学过程:结合实际新闻频道,介绍与预设主题相关的页面采集
(7)作业:无
第8章DeepWeb爬虫与Python实现(共2学时)
课次:10(2学时)
(1)对应章:第八章。
(2)教学内容:Deep