基本信息
文件名称:Python基础与大数据应用 第七章 Python爬虫基础.pptx
文件大小:6.55 MB
总页数:53 页
更新时间:2025-03-16
总字数:约3.33万字
文档摘要

第七章Python爬虫基础

01

行骨

爬虫概述urllib库使用urllib浏览器模拟

爬取网页与实战

正则表达式图片爬虫项目训练小结

实战

爬虫概述及应用

爬虫概述

网络爬虫(WebSpider),又被称为网页蜘蛛,是一种按照一定的规则,自

动地抓取网站信息的程序或者脚本。网络蜘蛛是一个很形象的名字,如果把互联网

比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络爬虫是一个自

动提取网页的程序,网络爬虫从一个或若干初始网页的URL开始,获得初始网页上

的URL,在抓取网页的过程,不断从当前页面上抽取新的URL放入队列,直到满足

系统的一定停止条件。

爬虫的分类

◆通用网络爬虫

01爬行对象从一些种子URL扩充到整个Web,主要为门户

站点搜索引擎和大型Web服务提供商采集数据。

◆聚焦网络爬虫

02有选择性地爬行那些与预先定义好的主题相关页面

的网络爬虫。

爬虫分类◆增量式网络爬虫

03对已下载网页采取增量式更新和只爬行新产生的或者已经发生

变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽

可能新的页面。

◆深层网络爬虫

04可以爬取互联网中深层页面。

网络爬虫结构

在网络爬虫的系统框架中,主要由控制器、解析器、资源库三部分组成。控制

器的主要工作是负责给多线程中的各个爬虫线程分配工作任务;解析器的主要工作

是下载网页,进行页面的处理,将一些JS脚本标签、CSS代码内容、空格字符、

HTML标签等内容处理掉,爬虫的基本工作是由解析器完成;资源库是用来存放下

载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索

引。

网络爬虫工作基本流程

①首先选取一部分精心挑选的种子URL;

种子

②将这些URL放入待抓取URL队列;URL

③从待抓取URL队列中取出待抓取的URL读取URL

DNS解析已下载URL放入

,解析DNS,并且得到主机的IP,并将已抓队列