Python基础与大数据应用第七章 Python爬虫基础.pptx - 创享文库

基本信息

文件名称：Python基础与大数据应用第七章 Python爬虫基础.pptx

文件大小：6.55 MB

总页数：53 页

更新时间：2025-03-16

总字数：约3.33万字

文档摘要

第七章Python爬虫基础

01

行骨

爬虫概述urllib库使用urllib浏览器模拟

爬取网页与实战

正则表达式图片爬虫项目训练小结

实战

爬虫概述及应用

爬虫概述

网络爬虫(WebSpider),又被称为网页蜘蛛，是一种按照一定的规则，自

动地抓取网站信息的程序或者脚本。网络蜘蛛是一个很形象的名字，如果把互联网

比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络爬虫是一个自

动提取网页的程序，网络爬虫从一个或若干初始网页的URL开始，获得初始网页上

的URL,在抓取网页的过程，不断从当前页面上抽取新的URL放入队列，直到满足

系统的一定停止条件。

爬虫的分类

◆通用网络爬虫

01爬行对象从一些种子URL扩充到整个Web,主要为门户

站点搜索引擎和大型Web服务提供商采集数据。

◆聚焦网络爬虫

02有选择性地爬行那些与预先定义好的主题相关页面

的网络爬虫。

爬虫分类◆增量式网络爬虫

03对已下载网页采取增量式更新和只爬行新产生的或者已经发生

变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽

可能新的页面。

◆深层网络爬虫

04可以爬取互联网中深层页面。

网络爬虫结构

在网络爬虫的系统框架中，主要由控制器、解析器、资源库三部分组成。控制

器的主要工作是负责给多线程中的各个爬虫线程分配工作任务；解析器的主要工作

是下载网页，进行页面的处理，将一些JS脚本标签、CSS代码内容、空格字符、

HTML标签等内容处理掉，爬虫的基本工作是由解析器完成；资源库是用来存放下

载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索

引。

网络爬虫工作基本流程

①首先选取一部分精心挑选的种子URL;

种子

②将这些URL放入待抓取URL队列；URL

③从待抓取URL队列中取出待抓取的URL读取URL

DNS解析已下载URL放入

,解析DNS,并且得到主机的IP,并将已抓队列