项目八项目实战-网络爬虫.ppt

基本信息

文件名称：项目八项目实战-网络爬虫.ppt

文件大小：1.97 MB

总页数：28 页

更新时间：2025-05-24

总字数：约1.83千字

文档摘要

任务步骤第五步APP页面分析。配置完成后，即可使用当前手机打开需要爬取的APP，这里使用的是美团APP，页面结构如图所示。*任务步骤第六步查看APP信息。找到需要抓取的页面后，在Fiddler抓包工具页面中会获取到当前APP请求网络的路径，点击路径后即可查看当前APP的相关信息，效果如图所示。*任务步骤第七步基本配置和信息获取完成后即可进行代码的编辑，将上面获取的相关请求头信息填入代码相应的位置，之后将爬取路径放入请求方法中进行页面内容的请求，之后通过JSON信息的分析，爬取需要的页面信息，如有需要可将信息保存到本地文件，代码如下所示。*任务步骤第七步效果如图所示：*目录8.2【任务2】爬取浪潮优派信息8.1【任务1】爬取手机端数据案例分析*本任务是爬取浪潮优派首页中的新闻列表和所有的图片信息，然后将新闻列表保存到本地文本文档中，将图片保存到爬虫的所在目录。需求描述案例分析*明确爬取目标及所需要的效果。根据URL爬取网页数据信息。对数据进行保存。设计思路任务二使用正则表达式提取网页内容*案例展示任务步骤第一步打开浪潮优派教育首页（:9090/），如图所示。*InspurEducationInspurGroupInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurGroupInspurEducationInspurGroup*********AnIBMProofofTechnology*项目八项目实战-网络爬虫目录8.2【任务2】爬取浪潮优派信息8.1【任务1】爬取手机端数据案例分析*使用Requests库与抓包工具（拦截查看网络数据包内容的软件）的结合实现一个APP页面内容的爬取。能够通过Fiddler抓包工具配置及使用获取APP数据内容及相关信息，之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。需求描述案例分析*安装Fiddler抓包工具。使用Fiddler抓包工具进行网站分析。分析网站。设计思路任务一使用Requests库爬取小说网站*案例展示任务步骤第一步下载抓包工具。这里使用Fiddler抓包工具，点击下载按钮后，根据相关提示信息完成内容填写即可实现Fiddler下载，效果如图所示。*任务步骤第二步Fiddler安装。双击下载好的软件安装包，之后点击“IAgree”→“Install”按钮即可安装Fiddler工具。安装完成效果如图所示。*任务步骤第三步Fiddler工具配置。打开刚刚安装完成的Fiddler软件，效果如图所示。*任务步骤第三步点击“Tools”菜单下的“Options”按钮进入工具配置界面，效果如图所示。*任务步骤第三步点击图中“Connections”按钮，之后进行端口号的配置，效果如图所示。*任务步骤第四步手机配置。由于抓取的是手机APP数据，因此需要在同一局域网内进行手机网络的配置，进入手机WiFi修改界面，设置手动代理并进行主机IP和端口号的配置，效果如图所示。*InspurEducationInspurGroupInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurEducationInspurGroupInspurEducationInspurGroup*********AnIBMProofofTechnology*