基本信息
文件名称:IBM:企业海量冷数据存储建设实践分享.pdf
文件大小:4.47 MB
总页数:8 页
更新时间:2025-06-05
总字数:约2.73千字
文档摘要

企业海量冷数据存储

建设实践分享

饶有清

资深系统架构师

IBMSystemsLab

数据海啸到来社交数据物联网数据

随着科技的快速发展,人和设备源源

不断的产生各种数据。IDC估计现在

地球上有44ZB的数据,2025年会有

160ZB的数据。

这些数据来自社交网络,视频,但更

多的是来自5G物联网,车联网等。

物联网设备是每时每刻都在产生数据,

像数据海啸一样涌向企业。如何处

理、保存这些数据,将是每个企业面

临的巨大挑战。

数据分层存储数据访问模式

90%never

accessed

2%

3%

5%

Accessedonce

企业数据有结构化数据,半结构化数

据,和非结构化数据。其中半结构化Accesed5times

和非结构化数据占数据总量的绝大部90%Accessed5times

分。加利福尼亚大学圣克鲁斯分校

对数据的使用做的一项研究,95%的

数据是冷数据,5%的数据是温热数

据。企业必须认识自己的数据,根据

数据的时效性选择适合的存储介质。

IBM基于SpectrumScale和磁带的归

档方案既可以独立的构建完整资源池,

又可以集成开源的HDFS/Swift等框架,

构建单独的磁带存储资源池。

项目工程建设实践总结

磁带近线存储资源池提供900PB的存储服务,节省84%存储成本。磁带近线存储资源

池的建成极大地提高了IT对业务的支持力度,满足了业务对低成本、低功耗、高空间

数据密度,绿色数据中心的存储需求。海量的数据量、分布式存储架构、高可用高性

能的需求,对项目建设造成巨大的困难。IBM团队通过创新性的项目实施方法,逐步

完善方案,提高系统的高可用性、易使用和管理性等非功能性方面的能力。

百度磁带近线存储系统实现百度磁带近线存储规模庞大,LabService通过梳理百度系统的高可用一直是IBM追

数据在不同的带库上,不同多大EB级的存储空间,需的自动化监控体系和IBM的求的目标,LabService通

的磁带上分布式存储。这是要管理众多带库设备和节点故障售后服务流程,开发磁过与IBM研发部门的合作,

国内第一次尝试在分布式环服务器。LabService通过带近线存储的故障自动发现、开发出分布式磁带归档系统

境下使用磁带存储介质。自动化运维管理软件进行设自动告警、自动报修的自动的统一备份方案,实现百度

LabService通过整个客户,备统一管理,系统统一部署。化运维监控系统。实现了近线存储的集中统一备份,

IBM研发部门资源,不断的有效的提高了系统的建设运IBM售后和百度自动化运维提高了整套系统的高可用性

探索创新,不断的完善方案。维效率。的集成统一。和高可靠性。

项目成果