突破算力枷锁！昇腾迎战人工智能大模型“暴力计算”时代！

在过去的两年里，大模型的出现引发了对算力的巨大需求增长，增长了750倍，而硬件的算力供给只增长了3倍。华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上揭开了这个由大模型引发的算力缺口的真相。而且这个算力缺口还在不断扩大，预计到2030年，人工智能所需的算力相对于2020年将增长500倍。同时，由于种种原因，算力的国产化也变得非常紧迫。

针对如何解决算力短缺问题，毕马威中国数字化赋能主管合伙人张庆杰认为，需要通过算力建设、基础设施的共享与优化、算法的优化和数据的质量这三个途径来解决，其中算力建设是首要的。

华为在近几年的算力建设方面非常积极。根据中信证券7月份的研究报告，在国内的城市智算中心中，华为目前占据了大约79%的市场份额。

除了量的增长，提升算力集群的能力也非常重要。就在2023年世界人工智能大会上，华为宣布昇腾AI集群将进行全面升级，集群规模将从最初的4000卡扩展到16000卡，算力集群将迎来“万卡”时代。

华为轮值董事长胡厚崑表示，昇腾AI的集群将把AI的算力中心当做一台超级计算机进行设计，使昇腾AI集群的性能效率提升了超过10%，系统的稳定性也提高了十倍以上。

张迪煊在采访中还透露，早在2018年，华为就预测到人工智能会快速发展，并改变了过去小模型的开发模式，形成了大算力、大数据生成大模型的模式，所以华为在当时就开始开发算力集群产品。

进入人工智能时代，已经无法像在单机系统时代那样依靠堆芯片来提升算力，而是需要对算力基础设施进行系统化的重塑。除了扩大巨大的算力供给之外，还需要解决算力利用率低和门槛高等问题，最终实现算力的生态化。

今年ChatGPT的出现引发了对算力的需求，GPU在硬件端成为最先受益的产品，英伟达的市值今年已经上涨了66%，达到了1.05万亿美元。

以英伟达A100为主的GPU成为大模型必备的优秀选择，但仅仅依靠堆卡已经无法满足“百模大战”的爆发需求。那么，如何最大限度地发挥宝贵的算力资源呢？

由于单个服务器已经很难满足计算需求，将多个服务器连接成一台“超级计算机”正在成为当前算力基础设施的主要方向，这就是算力集群。

华为在2019年就发布了Atlas900AI训练集群，最初由数千颗华为自研的昇腾910（主要用于训练）AI芯片构成，到今年6月已经支持到8000张卡。在刚刚结束的世界人工智能大会上，华为宣布计划在今年年底或明年年初的时候，将集群扩展到超过16000张卡的规模。万卡集群是指使用成千上万张计算卡（例如显卡）进行训练或推理的目标。举例来说，使用1750亿参数量的GPT-3模型进行训练时，如果使用8张V100显卡，训练时间预计需要36年；而使用512张V100显卡，训练时间接近7个月；而如果使用1024张A100显卡，训练时间可以缩短到1个月。

根据华为的评估，使用8000张昇腾AI计算卡的Atlas900AI集群来训练100B的GPT-3模型，只需要1天就可以完成训练；而使用16000张计算卡的集群，只需要半天就可以完成训练。但是要想使用万卡集群进行模型训练，并非易事。

中国工程院院士高文指出，全世界能够同时选型适用于1000张计算卡以上的模型的研究人员只有几千人，能够在4000张计算卡以上进行模型训练的人数不超过100人，而能够在10000张计算卡以上进行模型训练的人更少。对于千卡和万卡的训练和推理，对于软件规划和资源调度都面临着巨大挑战。

万卡规模的训练对分布式并行训练提出了更高的要求。分布式并行训练是一种高效的机器学习方式，将大规模的数据集分成多个部分，在多个计算节点上并行训练模型。这样可以大大缩短训练时间，提高模型的准确性和可靠性。

昇腾算力集群的分布式并行训练需要依靠华为自研的昇思MindSpore AI框架。昇思MindSpore支持多种模型类型，并且开发了一套自动混合并行解决方案，可以实现数据并行和模型并行的混合并行训练。通过这种双并行策略，在相同的算力和网络条件下，可以实现更大的计算通信比，同时也解决了手动并行架构的困难，提高了大模型开发和调优的效率。

此外，由于分布式并行训练，每训练出一个结果时需要所有的芯片进行同步，这个过程中可能会出现错误的概率。在万卡规模的训练中，对稳定性的要求更高。华为的昇腾AI芯片设计的可靠性和可用性可以实现30天稳定的训练，相比业界最先进的水平约为3天，提升了近10倍的性能稳定性和可用性优势。

最近，祝语未来科技及多家上市公司宣布将ChatGPT与公司的虚拟数字人融合，研发出更智能、更拟人的虚拟数字人。祝语未来科技主打产品是一款以全新概念打造的“祝语”APP，通过该平台，名人可以免费创建超写实的AI虚拟人模型，并利用公司积累的AI跨模态数字人3.0技术，实现高度拟人化的“思想和行为”，用户可以定制“真人真声”的祝福视频。

现在，无论是对于华为还是其他大模型企业，如何从行业大模型L1中快速生产L2模型，还有部署L2模型到端侧、边侧和云侧，成为打通行业应用最后一公里的问题。

针对这最后一公里，昇腾联合科大讯飞、智谱AI、云从等上游的大模型合作对象，提出了“训推一体化”方案。

简单理解，做模型训练就相当于大学学习阶段，推理部署（训练好的模型在特定环境中运行）就是正式上岗，训推一体化就是“边学习边实习”。

对于整个人工智能领域的算力生态来说，如何尽快打通这最后一公里成了重中之重，打通也就意味着被真正激活，未来才会有无限可能以及可持续的行业生态发展。

突破算力枷锁！昇腾迎战人工智能大模型“暴力计算”时代！

继续阅读

智能革命即将席卷全球！人工智能重塑国家竞争力！

苹果发新 iPad，4799 元起、M4 芯片抢眼；AIGC 岗位暴涨300%；马斯克称太空探索用不上人工智能｜极客早知道

人工智能力促音乐产业变革

融媒·深调查丨“+”什么，怎么“+”——现代生活如何拥抱“人工智能+”？

Jülich新人工智能基础模型推进科学应用

全球人工智能治理：藩篱与路径

AIGC相关岗位需求暴涨去年人工智能相关新增企业破50万家

人工智能侵权讨论加剧，跑量出版背后的作者困扰｜4月世界文学热点

生成式人工智能对认知安全的影响 | YEF2024

虚拟仿真实训室引入高校“人工智能+高等教育”应用场景

从语言大模型到文生视频大模型，现实不存在了吗？颠覆性的技术革命正发生，与人工智能顶尖专家共话算力未来

AI人工智能+三色激光技术 Vidda发布2024旗舰电视、投影新品

生成式人工智能招聘市场火爆，平均年薪超过40万元

用人工智能预测高考作文题目？360智脑的结论还真靠谱

人工智能加持 Vidda2024新品实现IMAX画质体验

人工智能业绩第一股，润泽科技2023年营收增长60%