基本信息
文件名称:《Python程序设计》课件 第10章 Python大数据实战.pptx
文件大小:7.55 MB
总页数:9 页
更新时间:2025-03-28
总字数:约2.97千字
文档摘要

TEACHER

TAUGHT

Python

大数据实战

时间:2024.8.19

主讲人:裴昭义

目录

Catalogue

学习内容

技能目标

任务一:爬取京东上华为手机的信息并保存

任务二:基于pytorch的物体识别

总结

10

Python

大数据实战

01

获取网页内容工具

02

网页内容分析工具

03

如何根据网页内容提取需要内容

04

生成

Excel

文件

requests

库requests

Python

中一个简单易用的

HTTP

库,用于发送各种

HTTP

请求,如

GET、POST、PUT、DELETE

等。它支持多种请求方法,并提供丰富的

API,方便用户进行网络请求和响应处理。

selenium

库:

selenium

是一个用于自动化

Web

应用程序测试的工具库,支持多种浏览器和编程语言。它提供了一套用于与浏览器交互的

API,允许执行如打开网页、输入文本、点击按钮等操作,非常适合进行自动化测试、爬虫开发等任务。

openpyxl

库openpyxl

是一个用于读取和写入

Excel

2010

xlsx/xlsm/xltx/xltm

文件的库。它提供了丰富的接口,可以方便地创建、编辑和保存

Excel

文件,包括操作工作表、读写单元格、设置格式、合并和拆分单元格等。

标签定位通过标签名、类名、ID

等属性定位网页中的元素,例如使用

soup.find_all(p)

查找所有

p

标签。

属性提取:

获取标签的属性值,例如使用

link[href]

获取

a

标签的

href

属性值。

文本提取:

获取标签内的文本内容,例如使用

first_paragraph.text

获取

p

标签内的文本内容。

CSS

选择器:

使用

CSS

选择器定位网页中的元素,例如使用

soup.select(div.myClass)

查找所有

class

myClass

div

标签。

bs4

库bs4

是一个用于分析

HTML

XML

文档的库,它提供了一个简单易用的接口,方便用户提取网页中的信息。bs4

库的核心是

BeautifulSoup

类,它可以将

HTML

XML

文档解析成一个树形结构,并提供多种方法用于查找、遍历和修改文档中的元素。

学习内容

能够使用torchvision的datasets模块

加载常见的数据集,如

CIFAR10、MNIST

等。能够使用

torchvision的transforms

对数据进行预处理和增强。

能够使用

bs4

库分析

HTML

文档,提取网页中的信息。

能够根据网页结构设计合适的爬虫程序,提取所需数据。

能够使用

selenium

库控制浏览器进行自动化操作。

能够使用

selenium

库进行

Web

应用程序测试。

能够使用

pytorch

定义、训练和测试深度学习模型。

能够使用

pytorch

进行图像识别、自然语言处理等任务。

能够使用

requests

库发送各种

HTTP

请求,并处理响应内容。

能够使用

requests

库进行网络爬虫开发,获取网页数据。

能够理解装饰器的概念和作用。

能够使用装饰器修饰函数,增加额外的功能。

能够使用

openpyxl

库创建、编辑和保存

Excel

文件。

能够使用

openpyxl

库进行数据分析、报表生成等任务。

能够使用

torchvision.utils.make_grid

将图像组合成网格形式。

能够使用

matplotlib.pyplot.imshow

显示图像。

掌握

requests

功能包的用法

掌握

selenium

功能包的用法

分析并提取网站内容的方法

掌握

openpyxl

的用法

掌握

Python

装饰器的使用方法

掌握

pytorch

的用法

掌握

torchvision

载入训练数据的方法

数据可视化的方法

技能目标

利用

Python

爬取京东上华为手机的信息,包括商品名称、价格、评论数、商家和链接等。

将爬取到的信息保存到

Excel

文件中。

任务描述

安装

anaconda:anaconda

是一个开源的

Python

发行版本,包含

conda、Python

等多个科学包及其依赖项,方便用户进行科学计算和数据分析。

requests

库的使用:

使用

requests

库发送

HTTP

请求,获取网页内容。

bs4

库的使用:

使用

bs4

库分析

HTML

文档,提取网页中的信息。

openpyxl

库的用法:

使用

openpyxl

库创建、编辑和保存

Excel

文件。

Python

装饰器:

使用装饰器修饰函数,记录函数运行时间。

相关知识

使用

selenium

库启动浏览器,打开京东网站。

使用

selenium

库定位并