基本信息
文件名称:项目八 项目实战-网络爬虫.ppt
文件大小:1.97 MB
总页数:28 页
更新时间:2025-05-24
总字数:约1.83千字
文档摘要

任务步骤第五步APP页面分析。配置完成后,即可使用当前手机打开需要爬取的APP,这里使用的是美团APP,页面结构如图所示。*任务步骤第六步查看APP信息。找到需要抓取的页面后,在Fiddler抓包工具页面中会获取到当前APP请求网络的路径,点击路径后即可查看当前APP的相关信息,效果如图所示。*任务步骤第七步基本配置和信息获取完成后即可进行代码的编辑,将上面获取的相关请求头信息填入代码相应的位置,之后将爬取路径放入请求方法中进行页面内容的请求,之后通过JSON信息的分析,爬取需要的页面信息,如有需要可将信息保存到本地文件,代码如下所示。*任务步骤第七步效果如图所示:*目录8.2【任务2】爬取浪潮优派信息8.1【任务1】爬取手机端数据案例分析*本任务是爬取浪潮优派首页中的新闻列表和所有的图片信息,然后将新闻列表保存到本地文本文档中,将图片保存到爬虫的所在目录。需求描述案例分析*明确爬取目标及所需要的效果。根据URL爬取网页数据信息。对数据进行保存。设计思路任务二使用正则表达式提取网页内容*案例展示任务步骤第一步打开浪潮优派教育首页(:9090/),如图所示。*InspurEducationInspurGroupInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurGroupInspurEducationInspurGroup*********AnIBMProofofTechnology*项目八项目实战-网络爬虫目录8.2【任务2】爬取浪潮优派信息8.1【任务1】爬取手机端数据案例分析*使用Requests库与抓包工具(拦截查看网络数据包内容的软件)的结合实现一个APP页面内容的爬取。能够通过Fiddler抓包工具配置及使用获取APP数据内容及相关信息,之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。需求描述案例分析*安装Fiddler抓包工具。使用Fiddler抓包工具进行网站分析。分析网站。设计思路任务一使用Requests库爬取小说网站*案例展示任务步骤第一步下载抓包工具。这里使用Fiddler抓包工具,点击下载按钮后,根据相关提示信息完成内容填写即可实现Fiddler下载,效果如图所示。*任务步骤第二步Fiddler安装。双击下载好的软件安装包,之后点击“IAgree”→“Install”按钮即可安装Fiddler工具。安装完成效果如图所示。*任务步骤第三步Fiddler工具配置。打开刚刚安装完成的Fiddler软件,效果如图所示。*任务步骤第三步点击“Tools”菜单下的“Options”按钮进入工具配置界面,效果如图所示。*任务步骤第三步点击图中“Connections”按钮,之后进行端口号的配置,效果如图所示。*任务步骤第四步手机配置。由于抓取的是手机APP数据,因此需要在同一局域网内进行手机网络的配置,进入手机WiFi修改界面,设置手动代理并进行主机IP和端口号的配置,效果如图所示。*InspurEducationInspurGroupInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurGroupInspurEducationInspurGroup*********AnIBMProofofTechnology*