目录
大数据基础上的数据查询 1
一、背景和意义 1
1.1大数据的特点分祈 2
1.2大巧据技术面临的问题 3
二、研究现状 3
2.1国外研究现状 4
2.2国内研究现状 4
三、如何在大数据的基础上进行数据查询 4
3.1结构化数据的查询技术 4
3.2非结构化数据的查询技术 8
四、一种基于大数据的查询方法 10
4.1基于大数据的搜索框架 12
4.2基于大数据的搜索关键技术 13
4.3仿真实验 17
结语 19
针对第三节结语、 19
针对第四节结语、 20
大数据基础上的数据查询
一、背景和意义
随着科技的高速发展,人类正在以前所未有的速度产生着大量的各种类型
的数据。尤其是伴随着云计算产业的落地,大数据也吸引了全社会的关注,成为了为一个人们所熟知的概念。上到国家政府机关、科研机构、科技企业,下到足球解说员、小报记者,都在谈论着大数据。这说明大数据不仅是一个数据科学界的难题,也是全人类的难题,各行各业都在深刻地体会着大数据所带来的机遇与挑战。
到底什么是大数据呢?通常,人们用四个V描述它。
第一个V是Volume,也就是量大。一组名为“互联网上的一天”的研究数据
告诉我们,一天之中,全球互联网产生的所有数据可以刻满1.68亿张DVD;发出
的电子邮件多达2940亿封(相当于美国在两年内发出的纸质信件数的总和);
社交社区发出的帖子由200万个(相当于《时代》周刊发行770年的文字量)……截至2012年,人类产生的数据量已经从TB级别跃升至PB级别(1PB=1024TB)、EB(1EB=1024PB)甚至(1ZB=1024EB)级别。根据国际数据公司(IDC)的研究表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。
第二个V是Variety,也就是种类繁多。除了传统的关系型数据,还有大量
的非关系型数据被大量的产生。要在这个海量的、种类繁多的数据中发现数据间的关系,挖掘出知识,是一个相当困难的事情。在这个从互联网向物联网迈进的时代,各种各样的计算设备通过网络连接在了一起构成了一个整体。人们的电脑、手机,不再只是获取信息的工具,还进一步成了信息的创造者与传播者。这一阶段产生的不仅有简单的文本数据,还有大量的传感器数据、视频、音频、日志、点击流和其他任何可以被纪录的数据。如何从这些大量的非关系型的数据中提取出有用的信息,是个很难的问题。
第三个V是Velocity,也就是产生速度非常快,主要表现位数据流和移动性,哈尔滨工业大学工学硕士学位论文
2
还有处理速度要快,实时性要高。大量新部署的传感器都在时刻地产生新的数据,如何快速的传输、记录这些数据,并快速地对大量的移动的快速的数据请求做出响应,也考验着当前的各种数据系统。根据IDC的名为“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,
处理数据的效率就是企业的生命。
第四个V是Value,也就是价值密度低。大数据的数据规模非常大,但实际
可能有用的数据并不多,包含的价值密度非常低。如何在大规模的数据中找出有价值的数据,亦即“提纯”,成为了大数据分析的关键问题。
大数据问题的研究主要分为四个方面:数据获取、数据传输、数据存储与
数据分析。数据获取主要是依靠传感器网络与互联网,数据传输主要是依靠网络通信。本文主要在与计算机学科紧密相关的数据存储与数据分析方面做研究。数据存储与数据分析是有一定的相关性的,某种特定的存储方法会加快一些数据分析的速度。只有设计好数据存储方式,才可以在其上研究新的数据分析方法,尤其是对分布式并行环境下,数据的存储与分布方式对整个集群的性能影响是非常巨大的。当前所有的大数据工具都是基于分布式环境的,因为单一节点存储和分析数据已经变得很不现实,只有依靠几百台甚至上千台的大规模集群才能存储下所需要的数据并有计算能力来给出分析结果。在分布式环境下的数据存储模式人们做了很多探索,本文也是其中之一,试图找出一种有效的存储方案来让大