天天看点

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

作者:心静如水9003

巨无霸AI模型的潮流

近年来,人工智能模型的发展可谓突飞猛进。从2018年发布谷歌的BERT模型,其参数量为9500万,到2020年OpenAI推出的GPT-3模型参数已扩展到1750亿,再到2021年国内浪潮发布中文AI大模型源1.0,其参数量更是达到2500亿;而微软和NVIDIA联手推出的威震天-图灵更是将模型规模推升到5000亿。近四年时间,AI模型规模竟然增大了5000倍之多。

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

大规模AI模型的崛起,带来了对高性能计算能力的极大需求。AI的功能主要包括推理和训练,而训练过程需要在数据中心完成,对处理器的运算性能要求较高。由于传统数据中心最初并不是专门为执行AI算法所构建,因此无法满足AI模型的算力需求。于是,现代AI数据中心以GPU+CPU异构架构为主流,CPU负责逻辑控制,GPU则用于支持大量数据的并行计算,两者相辅相成,大幅提高了算力运算效率。

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

为了满足这一挑战,NVIDIA推出了DGX SuperPOD云原生超级计算机。该解决方案提供了一站式AI数据中心解决方案,为企业的AI大模型计算提供了有力武器。

DGX SuperPOD采用模块化设计,支持不同规模的定制,由140台DGX A100 GPU服务器、HDR InfiniBand 200G网卡和NVIDIA Quantum QM8790交换机构建而成。每台DGX A100服务器搭载8个NVIDIA A100 Tensor Core GPU,单节点AI算力达到5 PFLOPS,5个DGX A100组成的一个机架的算力就可媲美一个AI数据中心。DGX SuperPOD的网络方案针对AI和HPC进行了优化,采用了计算和存储网络分离的方案,有效避免了带宽瓶颈。此外,多个POD之间还可以通过核心层交换机直连起来,支持多达560台DGX A100的互连规模。

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

目前,NVIDIA的DGX SuperPOD方案已经成功部署到京东探索研究院中,京东探索研究院在计算机视觉、自然语言处理、跨模态等领域设计和研发了数十个模型,并在DGX SuperPOD上取得了比较理想的加速比和扩展性。NVIDIA构建的集群方案,不仅化解了大模型的算力难关,同时加速了AI训练和迭代速度,降低了企业的AI训练成本,将普惠AI变为现实。

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

在智东西公开课上,NVIDIA的解决方案架构师赵明坤和DDN的存储解决方案架构师李凡两位技术专家共同主讲,深入阐述了DGX SuperPOD的优势和应用案例。赵明坤老师从AI数据中心的趋势和构建难点出发,详解了如何高效构建AI数据中心;而李凡老师则剖析了数据中心对高速并行存储的需求,并着重介绍了DDN高速并行存储产品在DGX SuperPOD中的应用实践。参与公开课的观众们,进一步了解了大模型训练、架构,洞察了AI超算的发展趋势,以及NVIDIA DGX SuperPOD方案的应用场景。

一键搭建 AI 数据中心,NVIDIA DGX SuperPOD 开启 AI 超算新模式

的建设将会迎来更为广阔的发展前景。这些高性能的AI计算平台将不仅满足目前大规模模型的训练需求,更有望为AI技术的创新和应用带来全新的可能性。

随着DGX SuperPOD的成功示范,更多企业将被鼓励和挑战去构建属于自己的AI数据中心。然而,这并非易事,除了高性能计算设备的采购和搭建,企业还需要具备深厚的AI知识和技术积累。在这一领域,NVIDIA的专业技术团队扮演着不可或缺的角色。他们的专业指导和支持,将帮助企业克服诸多挑战,构建高性能、高效能的AI数据中心。

未来,我们可以预见,随着技术的不断演进,更多的巨无霸AI模型将不断涌现,AI数据中心将成为各行各业的核心力量。从科学研究到商业应用,从医疗诊断到智能交通,从金融风控到智能制造,AI将持续引领着社会的发展潮流。

然而,与此同时,我们也要正视AI发展所带来的挑战,包括数据隐私、伦理道德等问题。在拥抱AI的过程中,我们需要建立健全的法律法规和伦理规范,确保AI技术的应用始终为人类福祉服务。

继续阅读