基本信息
文件名称:信息技术基础实训(WPS Office)课件 26.任务5.2 浅尝数据爬虫(37).pptx
文件大小:7.07 MB
总页数:37 页
更新时间:2025-03-11
总字数:约5.07千字
文档摘要

任务5.2浅尝数据爬虫信息技术基础“信息技术基础”课程组知识要点:大数据的基本概念、核心技术及产业融合发展

5.2.1任务描述

小王喜爱读书,经常去图书馆借书看,并且对新书非常感兴趣。有一天他突发奇想,可以通过什么方法快速获得图书馆的新书书目名单呢?需要用到什么技术呢?他需要系统地学习大数据的概念、数据分析、数据爬虫等知识,真正了解大数据,便可以用大数据爬虫技术将所需要的书目挖掘出来。5.2.1任务描述

5.2.2任务分析

任务5.2的思维导图如图所示。5.2.2任务分析

5.2.3知识准备

5.2.3知识准备01大数据03数据爬虫02大数据的核心技术

大数据是指那些规模巨大到无法通过传统数据库软件工具,在合理的时间内达到抓取、管理、处理并整合成能够帮助人们进行决策的资讯。这些数据集合通常具有极高的复杂度,包括结构化、半结构化和非结构化数据,且数据生成速度极快,要求处理系统具有高速的处理能力。1.大数据5.2.3知识准备(1)大数据的定义

①Volume(大量):是指数据集的规模,即数据量的大小。大数据的数据量往往超出传统数据库管理系统(DBMS)的处理能力,可能达到PB、EB甚至ZB级别。5.2.3知识准备1.大数据(2)大数据的特征具体来说,大数据具有以下几个关键特征(这些特征通常被概括为“4V”)。②Velocity(高速):是指数据生成和处理的速度。在大数据环境中,数据是实时生成的,需要被迅速处理和分析,以便在第一时间获得洞察和决策支持。

③Variety(多样):是指数据类型的多样性。大数据不仅包括传统的结构化数据(如关系数据库中的表格数据),还包括半结构化数据(如XML、JSON等)和非结构化数据(如文本、图像、视频、音频等)。5.2.3知识准备④Value(价值):尽管大数据具有海量和复杂等特性,但其真正价值在于通过高级分析技术从中提取的具有洞察力和智能化的高价值信息。这些信息可以为企业带来竞争优势、提高运营效率以及创造新的商业模式等。

大数据采集是指从各种来源中收集、整合和存储大量数据的过程,该过程包括数据清洗、数据转换、数据加载等步骤,以确保数据的质量和准确性。采集的主要来源包括传感器、社交媒体、网站、移动设备、企业内部系统等。这些来源产生的数据类型包括结构化数据、半结构化数据和非结构化数据。采集还需要使用各种技术和工具,如数据挖掘、机器学习、自然语言处理、数据仓库等。同时,还需要考虑数据安全和隐私保护等问题,确保采集的数据符合相关法规和标准。2.大数据的核心技术5.2.3知识准备(1)大数据采集

大数据预处理是指在进行数据分析之前,对采集到的原始数据所进行的一系列操作,其主要目的是提高数据质量,为后期分析工作奠定基础。预处理过程包括数据清洗、数据集成、数据转换和数据规约等步骤。大数据预处理是一个多步骤的过程,旨在确保数据质量、一致性和适用性,为后续的数据分析和建模提供可靠的基础。通过预处理,可以消除原始数据中的噪声、错误和不一致。大数据预处理还包括特征选择、数据集划分和数据可视化等步骤,这些步骤有助于进一步减少数据维度和冗余信息,划分出用于模型训练和评估的数据集,并通过可视化工具对数据进行探索性分析,发现数据之间的关系和规律。2.大数据的核心技术5.2.3知识准备(2)大数据预处理

大数据存储主要关注如何有效、安全地保存和管理海量的、复杂多样的数据集合。这些数据集合可能包括结构化数据(如数据库中的表格)、半结构化数据(如XML、JSON等格式的数据)以及非结构化数据(如文本、图像、音频、视频等)。大数据存储具有高效存储大量数据、高度扩展性、高可靠性、高安全性等特点。大数据存储是确保大数据价值得以实现的基础,它要求存储解决方案不仅要有巨大的存储容量,还要有高效的数据处理能力和智能的数据管理功能。此外,大数据存储还需要考虑数据的安全性、隐私保护和合规性等问题。在存储数据时,需要采用加密、访问控制等手段保护数据安全;同时,还需要遵守相关的数据保护和隐私法规,确保数据的合法使用。2.大数据的核心技术5.2.3知识准备(3)大数据存储

大数据挖掘是指从大规模数据集中发现有用信息的过程,它涉及对数据的清洗、整合、探索、建模和预测等步骤,以发现数据中的模式、关联、异常和趋势。大数据挖掘需要借助一些高级的算法和技术,如机器学习、数据挖掘、人工智能等,以处理海量、高维度和多样性的数据。大数据挖掘在商业、科学、医疗、金融等领域都有广泛的应用,可以帮助企业、组织和机构更好地理解数据、优化决策和创造价值。2.大数据的核心技术5.2.3知识准备(4)大数据分析挖掘

数据爬虫是一种自动化程序,主要用于从互联网上收集并提取数据。它通过访问网站的源代码并解析HTM