基本信息
文件名称:Python3程序设计(第3版) 课件 第12章 爬取数据.pptx
文件大小:679.18 KB
总页数:19 页
更新时间:2025-09-10
总字数:约5.4千字
文档摘要
本章内容章节目录爬取网页就是通过程序下载网页,分析网页中的不同元素,从中提取有用数据的过程。即:把URL地址中指定的资源从网络流中读取出来,保存到本地。爬取与分析网页中的数据爬取网页的urllib库和requests库解析网页的bs4库网页爬取技术的应用
12.1爬取网页的urllib库和requests库爬取网页的基础知识1.HTTP协议用户浏览网页的过程是浏览器与Web服务器请求应答的过程。浏览器与服务器之间的通信的基础是HTTP协议。HTTP协议是一个无状态的协议,同浏览器的一次请求和上次请求没有对应关系。爬取与分析网页中的数据2.HTTP工作过程(1)浏览器与服务器建