基本信息
文件名称:爬虫的常用库大数据采集技术与应用38课件讲解.pptx
文件大小:10.08 MB
总页数:8 页
更新时间:2025-12-22
总字数:约1.34千字
文档摘要

爬虫的常用库大数据采集技术与应用

1.熟悉爬虫的常用库

爬虫的常用库类型库名简介通用urllibPython官方内置的请求工具,是进行网络请求的基础,无需安装。requests业界闻名的HTTP库,使得发送网络请求变得极其简单。urllib3一个功能强大且线程安全的HTTP客户端,专注于连接池、代理支持和请求重试等高级特性。框架scrapy专为爬取网站和提取结构化数据而设计的强大异步爬虫应用框架。HTML/XML解析器lxml基于C语言实现的高性能解析库,兼具速度与功能,并完整支持XPath语法。BeautifulSoup4纯Python编写的解析库,API设计人性化,上手简单,尤其擅长处