企业海量冷数据存储
建设实践分享
饶有清
资深系统架构师
IBMSystemsLab
数据海啸到来社交数据物联网数据
随着科技的快速发展,人和设备源源
不断的产生各种数据。IDC估计现在
地球上有44ZB的数据,2025年会有
160ZB的数据。
这些数据来自社交网络,视频,但更
多的是来自5G物联网,车联网等。
物联网设备是每时每刻都在产生数据,
像数据海啸一样涌向企业。如何处
理、保存这些数据,将是每个企业面
临的巨大挑战。
数据分层存储数据访问模式
90%never
accessed
2%
3%
5%
Accessedonce
企业数据有结构化数据,半结构化数
据,和非结构化数据。其中半结构化Accesed5times
和非结构化数据占数据总量的绝大部90%Accessed5times
分。加利福尼亚大学圣克鲁斯分校
对数据的使用做的一项研究,95%的
数据是冷数据,5%的数据是温热数
据。企业必须认识自己的数据,根据
数据的时效性选择适合的存储介质。
IBM基于SpectrumScale和磁带的归
档方案既可以独立的构建完整资源池,
又可以集成开源的HDFS/Swift等框架,
构建单独的磁带存储资源池。
项目工程建设实践总结
磁带近线存储资源池提供900PB的存储服务,节省84%存储成本。磁带近线存储资源
池的建成极大地提高了IT对业务的支持力度,满足了业务对低成本、低功耗、高空间
数据密度,绿色数据中心的存储需求。海量的数据量、分布式存储架构、高可用高性
能的需求,对项目建设造成巨大的困难。IBM团队通过创新性的项目实施方法,逐步
完善方案,提高系统的高可用性、易使用和管理性等非功能性方面的能力。
百度磁带近线存储系统实现百度磁带近线存储规模庞大,LabService通过梳理百度系统的高可用一直是IBM追
数据在不同的带库上,不同多大EB级的存储空间,需的自动化监控体系和IBM的求的目标,LabService通
的磁带上分布式存储。这是要管理众多带库设备和节点故障售后服务流程,开发磁过与IBM研发部门的合作,
国内第一次尝试在分布式环服务器。LabService通过带近线存储的故障自动发现、开发出分布式磁带归档系统
境下使用磁带存储介质。自动化运维管理软件进行设自动告警、自动报修的自动的统一备份方案,实现百度
LabService通过整个客户,备统一管理,系统统一部署。化运维监控系统。实现了近线存储的集中统一备份,
IBM研发部门资源,不断的有效的提高了系统的建设运IBM售后和百度自动化运维提高了整套系统的高可用性
探索创新,不断的完善方案。维效率。的集成统一。和高可靠性。
项目成果