华为中国移动联合发布创新AI存储方案

文章编号：2666 更新时间：2024-09-26 分类：技术教程 阅读次数：次

资讯内容

标题：华为与中国移动共创辉煌：智算中心超大规模集群AI存储解决方案揭秘

IT之家9月26日消息，华为全联接大会2024的一重大成果发布引起了业界的广泛关注。
在大会上，中国移动集团首席专家、研究院网络与IT技术研究所所长张昊携手华为数据存储产品线副总裁谢强强，共同发布了智算中心超大规模集群AI存储解决方案。
这一方案的推出，标志着在大规模人工智能计算领域，我们迈出了关键的一步。

近年来，大模型技术正快速发展，其在规模与能力的提升上展现出了惊人的速度。
全球大型科技公司，如OpenAI、字节跳动、中国移动以及Meta等，都在积极投入建设万卡/超万卡集群智算中心。
这种趋势背后，大模型技术遵循的ScalingLaw愈加明显，参数规模已经从亿级别迈向万亿甚至十万亿级别，单一模态也逐步走向多模态融合。
但随着模型规模的扩大，尤其是在处理海量非结构化数据时，传统存储系统面临着诸多挑战。
这些问题凸显了我们在存储技术领域需要不断创新和提升。

在此背景下，中国移动在哈尔滨的万卡超大规模智算集群为我们提供了一个重要的实践案例。
该集群首次大规模部署了基于华为OceanStorAI存储的多协议融合存储解决方案，其存储集群的容量高达惊人的150PB。
这个解决方案通过一系列创新技术提升了大模型训练效率，其中包括并行客户端、高密全闪介质、冷热数据自动分级以及GSE全调度以太网的高性能融合存储系统。
通过这个系统，大规模集群可以更有效地处理和分析海量的数据，进而推动AI技术的更大规模应用和发展。

提到大规模集群智算中心的建设，我们必须关注到国内运营商的最大单集群智算中心——中国移动智算中心（哈尔滨）。
该中心于8月30日建设完成并正式投产使用，其独特的特性包括单集群算力规模最大、国产化网络设备组网规模最大等。
该中心成功地把所有AI加速卡打造成一个强大的集群，用以支持千万亿级参数的大模型进行训练。
这一创新不仅提升了计算效率，同时也推动了国产网络设备的发展和应用。

在存储技术面临的挑战方面，中国移动和华为的合作解决方案展现出了显著的优势。
传统的存储系统在处理高吞吐性能、多协议以及数据管理效率等方面存在诸多难题。
通过创新的AI存储解决方案，我们可以实现对这些挑战的克服。
特别是华为OceanStorAI存储系统的应用，通过其高性能融合存储系统，可以大幅提升大模型训练效率。
这为未来的大规模AI计算提供了强有力的支持。

中国移动与华为的合作在智算中心超大规模集群AI存储解决方案上取得了显著的成果。
这一解决方案的推出，不仅为我们提供了应对大规模AI计算挑战的有效手段，同时也推动了人工智能技术的更大规模应用和发展。
在未来，我们期待看到更多类似的创新成果，推动人工智能技术的进步，为我们的生活带来更多的便利和惊喜。
这是科技的力量，也是我们迈向智能化时代的信心所在。华为中国移动联合发布创新AI存储