时间序列数据的聚类算法研究
目录TOC\o1-3\h\z\u
摘要 I
第1章绪论 1
1.1研究背景与意义 1
1.2国内外研究现状 2
1.3论文内容及结构安排 3
第2章时间序列相关概念及经典聚类算法概述 4
2.1时间序列相关概念 4
2.2时间序列特征提取 4
2.3聚类算法概述 4
第3章基于因子分析的时序聚类算法 7
3.1因子分析 7
3.2Birch聚类算法 8
3.3时间序列聚类算法 11
第4章实验结果及分析 12
4.1数据集介绍 12
4.2实验方案设计 12
4.3实验结果分析 12
第5章总结与展望 20
5.1总结 20
5.2展望 20
参考文献 21
附录 23
附录重要代码 27
PAGE2
摘要
现代社会,对静态数据的分析和研究已经有了较为深入的进展。然而现实生活中我们所遇到的各种数据往往是动态的,其中时间序列数据是最为常见的类型。所谓时间序列数据就是按时间顺序搜集到的数据排列成的集合,用来描述对象随时间变化的情况。诸如医院用到的心电图、股价图、近十年国内生产总值的变化等都属于时间序列数据。因此对时间序列数据进行聚类分析,从而获取有用信息就成了必不可少的重点工作,这也是数据挖掘一个重要部分。由于时间序列数据有着高维度、随机性大、数据量多且数据长度可能不一等特点,传统的聚类方法往往难以达到期望成果。
针对上述时间序列数据聚类中所存在的问题,本文做了以下工作:
1.首先介绍了时间序列的相关概念,随后介绍了对高维数据的特征提取的相关知识,最后描述了几种常见的聚类方法。
2.针对传统聚类方法无法有效地直接对时间序列数据进行聚类,提出了先降维再进行聚类的思想,使得聚类效果能够有所提高。并详细介绍了本文降维所用到的因子分析法以及聚类所用到的Birch、MiniBatchKMeans聚类法。
3.设计实验,并编程实现算法。随后应用到真实数据集中进行分析,根据结果可知,对降维后的数据进行聚类的效果的确有所改善,较传统方法有所提升。
关键词:时间序列聚类,特征提取,因子分析,Birch聚类
PAGE2
绪论
1.1研究背景与意义
在越来越快的信息时代背景下,数据数量以指数次进行增长,日益增长的数据似乎成为了现代人科学技术水平的象征。面对庞大的数据,人们建立了数据库,但是数据库所能做到的东西往往只是简单的存取与统计这类功能,无法满足人们对这些隐藏在数据背后的信息探求的需要。因为这些能代表数据整体特征的信息有可能反应事物发展的趋势,所以在决策制定过程中可能具有重要的参考价值。因此,对数据的搜集、整理也顺应着时代的需要飞速发展以满足人们的需要。纷繁复杂的数据中往往隐藏着许多或有用或无用的信息,因而如何快速高效有用的对数据进行挖掘成为了人们的迫切需要。
数据挖掘技术就是为了解决人们的需求而诞生的。通过对数据的筛选和分类,通过统计、在线分析处理、信息检索、机器学习、专家系统和模式识别等手段,实现对隐藏信息的提取。数据挖掘是各种技术的综合,服务于我们现实生活的各个方面。通过数据挖掘,人们可以预测一些事情的发展,提前采取措施,提高效益或规避风险。数据挖掘作为一项实质性服务于人的一项技术,其目的在于真正对目标数据挖掘到有用的信息,并准确的传达出来。因此,如何有效地挖掘大部分实际使用的数据,对人们来说具有更大的现实意义。
时间序列数据就是其中广泛存在且迫切有必要进行挖掘的数据之一。时间序列数据以时间为变化单位,在某种程度上深刻的反映出了一些事物的规律,对它的深度挖掘这有利于我们更好地利用科学技术来服务于我们对现实生活的理解。有效的对时间序列数据进行挖掘,并提取出有用的信息就是我们要迫切研究的方向,将它运用到现实例子中就能帮助我们解决实际问题。
随着科学技术的飞速发展,越来越多的各式各样的数据堆积在我们身边,其中序列数据便是其中之一,而时间序列数据更是重中之重。时间序列数据存在于我们生活中的方方面面,只要与时间有关的东西,有的时候它们之间有着或相同或不同的联系。对时间序列数据的挖掘已经越来越成为我们解决金融,股票等问题的重要途径之一。将数据中的“噪音”从中剔除或是填补缺失是我们需要解决的问题,这样才能更好的反映出数据之间的信息。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类的结果往往受到数据对象之间相似度的影响。时间序列聚类可以根据相似性将对