大数据杀熟背景下的数据挖掘技术与分类
算法研究
摘要
本文以近年来数据量激增的现象以及大数据杀熟现象为背景,对数据挖掘的
发展历、国内外研究现状、过展开了叙述。在文中也结合近年来一些比较火
热的社会现象,提出了数据挖掘在未来可能的应用会比较多的领域。另外就数据
挖掘中的分类算法展开了研究,对常见的分类算法利用Python语言进行了实现,
对结果进行了比对。在未来的日子里,数据量仍然会大幅增长,数据挖掘的用武
之地也越来越多,这种技术也显得越来越重要。将数据挖掘技术和分类算法合理
的运用在处理海量数据的任务中,可以帮助我们节省大量的时间,提高效率;也
更能发现数据背后的秘密,为我们提供有用且准确的信息。
关键词:数据挖掘;决策树算法;贝叶斯算法;最近邻算法
目录
1
1.绪论
1.1.研究现状综述
自从1989年知识发现一次处初露头角之后,历经数十年的发展,数据挖掘
已经从当初那个只配出现在专题讨论会上的小角色一跃变为了万千专家学者在
国际性学术会议上一起研究探讨的极具潜力的技术。国内外对数据挖掘的研究现
在来看仍然主要集中在三个方面:数据挖掘的算法、理论、应用。毕竟一种技术
的出现归根结底还是要用于生活、生产来服务于人类,为人类创造更多的便利和
好处的。所以对一种技术的研究最终一定会跑向应用。数据挖掘技术的算法数量
庞杂,这些算法主要可以分为三个大类:分类算法、关联规则分析算法、聚类算
法。其中分类算法又可以细分为:决策树、贝叶斯、最近邻、神经网络、SVM;
关联规则分析算法细分的结果是:Apriori算法、FP树算法、序列模式;聚类算
法进行细分包括:K均值算法、基于密度的聚类方法、使用高斯混合模型来期望
最大化聚类、层次聚类算法。无论是国外还是国内已经出现了很多技术成熟而且
使用价值很高的软件,数据挖掘的未来值得期待。
12选题意义
当今世界飞速发展,第三次工业革命带来了计算机之后,世界的发展速度越
来越快。近年来,随着各种社交媒体,APP的出现,每天都有源源不断的数据产
生,当今的世界,可以说是大数据的时代。在当今的世界,各个行业的数据信息
即将达到爆炸的度,并快要突破人们收集信息的极限。数据量的繁多与格式的
复杂多样让我们越来越感受到数据信息的重要性,毫不夸张地说,在现如今,数
据就是金钱。
大数据时代,各行各业的数据信息量可谓是达到了爆炸的地步,并且也快要
突破人们搜集信息的极限,再加之大数据的四大特点就是海量、高速、多样和易
变。针对这种现象,研究人员也在摸索解决的方法,研发出了数据挖掘技术,在
如何寻找有用信息、如何创造出有用信息等方面,已经得到一些发展的成果。通
过数据挖掘技术,能够将有效的信息从一堆复杂无序的原始数据中提取出来,发
挥其最大的用处。
深入挖掘数据信息中存在的价值,合理运用数据挖掘技术提升数据价值,不
仅能够及时掌握市场行业的未来发展动向,也能够帮助一些企业解决当前存在的
发展危机,创造出更多的生产价值与自我提升空间。
1.3.国内外研究现状
1.3.1.国外研究现状
知识发现和数据挖掘在经过十几年的发展之后已经成为了数据库领域中不
可或缺的研究方向之一。在上世纪八十年代末,在美国底特律举办了一次轰动世
2
界的会议,这个会议就是第十一届人工智能会议,能轰动世界大概就是因为KDD
一词在这次会议上初放异彩,时间一转来到上世纪九十年代中期,首届
KDDDataMining国际学术会议于加拿大蒙特利尔举办,之后每年这个方面的
国际性学术会议都如约而金。历经十余年的不懈钻研,有关数据挖掘技术这一领
现研究人员已经取得了令人满意的成果,许多开发软件的公司已经开发出了可
用于数据挖掘的软件,而且广泛应用于北美、欧洲的一些国家。从目前来看,对
数据挖掘的研究仍然主要集中在技术、理论和研究三个方面。在市场需求的推动
下,在研究人员的不懈努力下,市面上已经出现了一些用来进行