基本信息
文件名称:大数据采集技术与应用课件:爬取新浪微博数据.pptx
文件大小:1.39 MB
总页数:55 页
更新时间:2026-01-16
总字数:约小于1千字
文档摘要
;;任务引入1;;教学内容;教学内容;教学内容;理解并分析项目;本项目爬取的目标是新浪微博用户的公开基本信息,如用户昵称、头像、用户的关注、粉丝列表以及发布的微博等,这些信息抓取之后保存至MongoDB。;项目开始前需要实现代理池、Cookies池已经实现并可以正常运行,该部分内容却能够参考其他资料完成,同时安装Scrapy、PyMongo库。;项目采用的爬取方式是,以微博的几个大V为起始点,获取他们各自的粉丝和关注列表,然后获取粉丝和关注列表的粉丝和关注列表,以此类推,这样下去就可以实现递归爬取。如果一个用户与其他用户有社交网络上的关联,那他们的信息就会被爬虫抓取到,这样我们就可以做到对所有