第七章Python爬虫基础
01
行骨
爬虫概述urllib库使用urllib浏览器模拟
爬取网页与实战
正则表达式图片爬虫项目训练小结
实战
爬虫概述及应用
爬虫概述
网络爬虫(WebSpider),又被称为网页蜘蛛,是一种按照一定的规则,自
动地抓取网站信息的程序或者脚本。网络蜘蛛是一个很形象的名字,如果把互联网
比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络爬虫是一个自
动提取网页的程序,网络爬虫从一个或若干初始网页的URL开始,获得初始网页上
的URL,在抓取网页的过程,不断从当前页面上抽取新的URL放入队列,直到满足
系统的一定停止条件。
爬虫的分类
◆通用网络爬虫
01爬行对象从一些种子URL扩充到整个Web,主要为门户
站点搜索引擎和大型Web服务提供商采集数据。
◆聚焦网络爬虫
02有选择性地爬行那些与预先定义好的主题相关页面
的网络爬虫。
爬虫分类◆增量式网络爬虫
03对已下载网页采取增量式更新和只爬行新产生的或者已经发生
变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽
可能新的页面。
◆深层网络爬虫
04可以爬取互联网中深层页面。
网络爬虫结构
在网络爬虫的系统框架中,主要由控制器、解析器、资源库三部分组成。控制
器的主要工作是负责给多线程中的各个爬虫线程分配工作任务;解析器的主要工作
是下载网页,进行页面的处理,将一些JS脚本标签、CSS代码内容、空格字符、
HTML标签等内容处理掉,爬虫的基本工作是由解析器完成;资源库是用来存放下
载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索
引。
网络爬虫工作基本流程
①首先选取一部分精心挑选的种子URL;
种子
②将这些URL放入待抓取URL队列;URL
③从待抓取URL队列中取出待抓取的URL读取URL
DNS解析已下载URL放入
,解析DNS,并且得到主机的IP,并将已抓队列