TEACHER
TAUGHT
Python
大数据实战
时间:2024.8.19
主讲人:裴昭义
目录
Catalogue
学习内容
技能目标
任务一:爬取京东上华为手机的信息并保存
任务二:基于pytorch的物体识别
总结
第
10
章
Python
大数据实战
01
获取网页内容工具
02
网页内容分析工具
03
如何根据网页内容提取需要内容
04
生成
Excel
文件
requests
库requests
是
Python
中一个简单易用的
HTTP
库,用于发送各种
HTTP
请求,如
GET、POST、PUT、DELETE
等。它支持多种请求方法,并提供丰富的
API,方便用户进行网络请求和响应处理。
selenium
库:
selenium
是一个用于自动化
Web
应用程序测试的工具库,支持多种浏览器和编程语言。它提供了一套用于与浏览器交互的
API,允许执行如打开网页、输入文本、点击按钮等操作,非常适合进行自动化测试、爬虫开发等任务。
openpyxl
库openpyxl
是一个用于读取和写入
Excel
2010
xlsx/xlsm/xltx/xltm
文件的库。它提供了丰富的接口,可以方便地创建、编辑和保存
Excel
文件,包括操作工作表、读写单元格、设置格式、合并和拆分单元格等。
标签定位通过标签名、类名、ID
等属性定位网页中的元素,例如使用
soup.find_all(p)
查找所有
p
标签。
属性提取:
获取标签的属性值,例如使用
link[href]
获取
a
标签的
href
属性值。
文本提取:
获取标签内的文本内容,例如使用
first_paragraph.text
获取
p
标签内的文本内容。
CSS
选择器:
使用
CSS
选择器定位网页中的元素,例如使用
soup.select(div.myClass)
查找所有
class
为
myClass
的
div
标签。
bs4
库bs4
是一个用于分析
HTML
和
XML
文档的库,它提供了一个简单易用的接口,方便用户提取网页中的信息。bs4
库的核心是
BeautifulSoup
类,它可以将
HTML
或
XML
文档解析成一个树形结构,并提供多种方法用于查找、遍历和修改文档中的元素。
学习内容
能够使用torchvision的datasets模块
加载常见的数据集,如
CIFAR10、MNIST
等。能够使用
torchvision的transforms
对数据进行预处理和增强。
能够使用
bs4
库分析
HTML
文档,提取网页中的信息。
能够根据网页结构设计合适的爬虫程序,提取所需数据。
能够使用
selenium
库控制浏览器进行自动化操作。
能够使用
selenium
库进行
Web
应用程序测试。
能够使用
pytorch
定义、训练和测试深度学习模型。
能够使用
pytorch
进行图像识别、自然语言处理等任务。
能够使用
requests
库发送各种
HTTP
请求,并处理响应内容。
能够使用
requests
库进行网络爬虫开发,获取网页数据。
能够理解装饰器的概念和作用。
能够使用装饰器修饰函数,增加额外的功能。
能够使用
openpyxl
库创建、编辑和保存
Excel
文件。
能够使用
openpyxl
库进行数据分析、报表生成等任务。
能够使用
torchvision.utils.make_grid
将图像组合成网格形式。
能够使用
matplotlib.pyplot.imshow
显示图像。
掌握
requests
功能包的用法
掌握
selenium
功能包的用法
分析并提取网站内容的方法
掌握
openpyxl
的用法
掌握
Python
装饰器的使用方法
掌握
pytorch
的用法
掌握
torchvision
载入训练数据的方法
数据可视化的方法
技能目标
利用
Python
爬取京东上华为手机的信息,包括商品名称、价格、评论数、商家和链接等。
将爬取到的信息保存到
Excel
文件中。
任务描述
安装
anaconda:anaconda
是一个开源的
Python
发行版本,包含
conda、Python
等多个科学包及其依赖项,方便用户进行科学计算和数据分析。
requests
库的使用:
使用
requests
库发送
HTTP
请求,获取网页内容。
bs4
库的使用:
使用
bs4
库分析
HTML
文档,提取网页中的信息。
openpyxl
库的用法:
使用
openpyxl
库创建、编辑和保存
Excel
文件。
Python
装饰器:
使用装饰器修饰函数,记录函数运行时间。
相关知识
使用
selenium
库启动浏览器,打开京东网站。
使用
selenium
库定位并