基本信息
文件名称:数据挖掘完整版本.pptx
文件大小:1.85 MB
总页数:22 页
更新时间:2025-06-28
总字数:约6.1千字
文档摘要

数据挖掘(Datamining)

数据挖掘(Datamining)

背景(Backgound)定义(define)流程[flow]联系与区别[connectionanddiffrence]成功案列[successfulcase]

背景(Backgound)

The?manual?extraction?of?patterns?from?data?has?occurred?for?centuries.?Early?methods?of?identifying?patterns?in?data?include?Bayes?theorem?(1700s)?andregression?analysis?(1800s).?The?proliferation,?ubiquity?and?increasing?power?of?computer?technology?has?dramatically?increased?data?collection,?storage,?and?manipulation?ability.?数据手动提取模式已有几百年的历史。识别数据中早期方法包括贝叶斯定理?(17世纪)和回归分析?(1800年)。计算机技术的扩散、普及和不断增强的力量极大地提高了数据的收集、存储和操作能力。

简谈下贝叶斯公式贝叶斯公式就是个背锅公式,一个手术失败了,两个医生中不知道谁做的,开始选择背锅侠,a医生做掉了全部医院90%的手术,失败率20%,b医生做掉了全部医院10%的手术,失败率70%好的,那么谁来背锅呢a的背锅系数0.9*0.2=0.18

b的背锅系数0.1*0.7=0.07恭喜a医生获得72%的背锅权

恭喜b医生获得28%的背锅权这也就是为什么当前一架飞机出了问题之后,后一架最好不要坐。两者未必独立。。。。也许前一架的背锅的因素没有处理好。。。(转自知乎)

定义(define)

数据挖掘(Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。

简言之,数据挖掘是一系列的处理过程,最终的目的是从数据中挖掘出你想要的或者意外收获的信息。数据研究高级科学家RachelSchutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“上图展示了数据挖掘的众多应用领域

所使用的十大算法谈谈pagerankPageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里?佩奇(LarryPage)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。

简单流程数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识.?

举个简单例子一、分析报告(选择)在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀(参考水浒传史进武器)力量无穷。所以在大战开始三百回合时候不相上下,结果后来