PAGE
PAGE1
课程教学大纲教学进度表
院系:日期:2024年5月9日
课程代码
中文名称
Python爬虫大数据采集与挖掘
英文名称
WebCrawlingforBigDataCollectionandMiningUsingPython
学分数
2
周数
16
周课时
2
总课时
32
授课语言
中文
是否荣誉课程
课程性质
□通识教育核心□通识教育专项
□大类基础√专业必修
教学目的
本课程主要针对*****等专业本科生3年级或4年级,讲解互联网大数据采集与挖掘技术原理与实现方法,同时介绍这些技术在网络舆情监测、在线评论分析、爬虫采集监测等场景中的应用方法。通过本课程教学,使学生对互联网大数据技术的知识体系、普通爬虫技术、动态爬虫、主题爬虫、DeepWeb爬虫、微博爬虫、爬虫对抗、Web页面提取、文本处理、文本分类、文本聚类、评论文本情感分析、社交网络分析以及互联网时间序列分析等多项互联网大数据技术有深刻的理解和掌握。
基本内容简介
课程内容以互联网大数据处理技术体系为线索和重点,以Web内容空间基础、静态和动态互联网信息内容采集、特征与表示模型、信息内容分类、主题发现以及社交网络、情感分析、时间序列分析典型应用为核心,结合舆情情感分类、舆情主题发现等信息内容分析应用,讲解相关的理论、技术与应用方法,课程的特点是理论与实用相结合。
基本要求:要求理解Web信息内容采集与处理的相关技术、实现方法;掌握互联网信息内容获取、处理、建模、存储以及舆情情感分类、新闻文本分类、舆情主题、文本聚类、情感分析、社交网络分析、时间序列分析等关键技术,具备利用这些技术与理论进行信息内容分析挖掘与应用的能力。
授课方式:
本课程以讲课为主,在本课程的教学过程中将运用课堂讲解、课堂讨论等形式为学生提供互动式交流。
课程负责人简介:
教学团队成员
姓名
性别
职称
院系
在教学中承担的职责
教学内容安排(具体到每节课内容):
第一周:
第1节课:互联网大数据来源与特征、大数据采集技术的重要性、爬虫应用现状与场景;第2节课:爬虫大数据采集与挖掘的技术体系、合规性、技术展望。
第二周
第1节课:网络爬虫相关基础,包括HTML语言、网络内容编码与Python基础。第2节课:Web服务器的应用架构、Robots协议、HTTP协议、Cookie和Session。
第三周:
第1节课:普通爬虫(静态爬虫)技术架构、Web连接器技术及requests编程要点。第2节课:合规性、链接分析与处理、爬行策略设计。
第四周:
第1节课:爬行策略实现、Web内容采集与监测的多线程技术;第2节课:动态网页生成原理、URL分析与生成、社交媒体评论型页面采集的Python实现。
第五周:
第1节课:Cookie、Session、模拟浏览器技术。第2节课:对静态网页、动态网页的采集实践,以本校主页、教务处发布等为采集目标。
第六周:
第1节课:Web信息提取技术原理;第2节课:Web信息提取与存储的技术实现。要求掌握DOM树、BeautifulSoup以及JSON的处理和运用方法。
第七周:
第1节课:主题爬虫技术原理;第2节课:主题爬虫的实现,特定新闻采集的案例。
第八周:
第1节课:DeepWeb体系架构与图书采集案例;第2节课:微博采集技术与实现方法。要求学生理解DeepWeb技术框架、微博API原理、微博爬虫原理和实现。
第九周:
第1节课:爬虫对抗概况与反爬虫技术。第2节课:爬虫对抗技术。
第十周:
第1节课:文本内容预处理技术;第2节课:技术实现方法,含词性、命名实体处理与Python实现。
第十一周:
第1节课:向量空间模型,TF-IDF及实现。第2节课:文本的分布式表示原理及Doc2Vec的使用。
第十二周:
第1节课:文本分类技术原理;第2节课:新闻文本分类。要求学生掌握文本分类技术原理,并熟悉舆情的新闻分类过程和思路。
第十三周:
第1节课:文本聚类。第2节课:主题建模,LDA模型的调用方法。
第十四周:
第1节课:文本情感分类实例,掌握社交媒体信息的情感分类方法。第2节课:社交网络分析技术,熟悉NetworkX、社区发现算法的使用、Pajek工具。
第十五周:
第1节课:时间序列分析原理;第2节课:时间序列分析的程序设计、可视化。
第十六周:
第1节课:舆情监测应用;第2节课:酒店评论文本挖掘应用。(学生汇报大作业)
课内外讨论或练习、实践、体验等环节设计:
结合课程内容采集、分析和监测应用,学