2025 年趋势观察:存储和数据基础设施
Omdia观点:分析工作负载需求的增加,正在推动存储设计和混合云能力实现变革
2023 年,由于云服务提供商明显地将更大一部分数据中心设备预算转向了基于 GPU 的服务器,逐渐不再使用通用服务器和存储,存储支出增长有所放缓。2024 年,存储增长出现强劲复苏,预计 2025 年依然如此,随后将趋于平稳,直至 2029 年。
预计到 2029 年,存储设备出货量将以 12.5% 的 CAGR 增长。然而,传统存储区域网络 (SAN) 和网络附加存储 (NAS) 次级细分市场已然成熟,预计这些领域将经历缓慢增长甚至负增长。
Omdia 预计,下一波人工智能(AI)浪潮将重点聚焦在 AI 代理部署和私人数据增强训练方面,这将引发数据中心存储支出的增加。因为这些技术对于 AI 数据管道至关重要,所以对于主要存储供应商(云和企业)而言,数据基础设施领域的一个重大机遇正在显现。
存储和数据基础设施的主要信息
全球分布式文件系统 (GDFS) 存储。GDFS 通过为远程和多云位置(无论是本地、云中还是混合环境中)存储的数据提供单一视图和数据管理,提高了数据可访问性。
针对分布式数据的 AI 数据编织。随着 AI 的成功,企业正在寻求全面的数据工具集,帮助组织管理不同的数据源,更有效地整合这些数据流,并获得精心编策的数据集以用于训练。
动态归档和磁带的再次兴起。AI 和机器学习 (ML) 正在推动生成海量数据,而这些数据需要存储。尽管可将许多不常访问的数据发送至云归档服务,但本地动态归档存储正在成为一种可行的替代方案。
专业 AI 融合存储平台。集数据管道管理、集群、AI 计算库以及针对 AI 优化的存储等功能于一身的统包式融合平台将受到追捧。对于边缘推理及企业增强训练而言,此类平台尤为可贵。
给企业(传统)存储供应商的建议
企业存储供应商应采用 GDFS,以便从任何地方访问 AI 数据,从而确保研究人员和应用可以无缝地检索及处理数据,而无论数据位于何处。这种能力可以实现高效的数据共享并减少时延问题,对于协作式 AI 项目和实时数据分析至关重要。
企业寻求具有经济效益的方法来存储和检索不常访问但有价值的数据,因此动态归档将变得愈发重要。随着数据量呈指数级增长,企业将需要能够提供低成本存储层(如磁带)的解决方案,同时又不影响可访问性。
存储供应商通过设计针对高吞吐量和低时延 AI 工作负载优化的解决方案,充分利用激增的专业 AI 融合存储平台。存储供应商可以集成存储 GPU 和非易失性内存主机控制器接口规范 (NVMe) 结构,从而交付为 AI 模型训练和推理量身定制的性能。
给云存储服务提供商的建议
云服务提供商(SP)应将数据编织工具集成到其基础设施中,以简化跨混合云和多云环境的数据管理。这种能力对于管理分布式数据的组织至关重要,特别适用于实时分析和 AI/ML 工作负载(无论其位于何处)。
云服务提供商应提供边缘设备和集中式云平台之间的无缝集成,以促进模型更新并管理 AI 代理应用的数据流。
检索增强生成 (RAG) 模型训练需要无缝地集成到私有云环境中,从而使敏感数据得到本地化处理,同时允许安全的数据访问以进行训练。一种可能的实现方法是为数据编织添加私有远程访问能力。
给数据中心存储买家和用户的建议
• 数据中心(DC)应考虑采用可扩展的多协议分布式存储解决方案,跨混合云和多云环境统一数据访问。此类解决方案还能够提供针对分布式环境量身定制的强大安全性、合规性和治理特性,以解决对数据主权和隐私问题的担忧。
• 数据中心应采用分层存储解决方案,实现数据的智能移动,即可以根据使用模式在活动层和归档层之间自动迁移数据。通过利用对象存储进行动态归档,数据中心能够提供具有经济效益、可扩展且易于访问的选项。
• 数据中心需要具有高性能存储技术(如 NVMe、远程直接内存访问 (RDMA))和并行文件系统的 AI 优化基础设施。与其自行组装基础设施,不如考虑预先设计和经优化的解决方案。与 AI 供应商合作、纳入用于加速模型训练和推理数据管道的软件工具,也可以加速项目进展。