天天看点

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

作者:乐天派AI聊科技

在过去的两年里,大模型的出现引发了对算力的巨大需求增长,增长了750倍,而硬件的算力供给只增长了3倍。华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上揭开了这个由大模型引发的算力缺口的真相。而且这个算力缺口还在不断扩大,预计到2030年,人工智能所需的算力相对于2020年将增长500倍。同时,由于种种原因,算力的国产化也变得非常紧迫。

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

针对如何解决算力短缺问题,毕马威中国数字化赋能主管合伙人张庆杰认为,需要通过算力建设、基础设施的共享与优化、算法的优化和数据的质量这三个途径来解决,其中算力建设是首要的。

华为在近几年的算力建设方面非常积极。根据中信证券7月份的研究报告,在国内的城市智算中心中,华为目前占据了大约79%的市场份额。

除了量的增长,提升算力集群的能力也非常重要。就在2023年世界人工智能大会上,华为宣布昇腾AI集群将进行全面升级,集群规模将从最初的4000卡扩展到16000卡,算力集群将迎来“万卡”时代。

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

华为轮值董事长胡厚崑表示,昇腾AI的集群将把AI的算力中心当做一台超级计算机进行设计,使昇腾AI集群的性能效率提升了超过10%,系统的稳定性也提高了十倍以上。

张迪煊在采访中还透露,早在2018年,华为就预测到人工智能会快速发展,并改变了过去小模型的开发模式,形成了大算力、大数据生成大模型的模式,所以华为在当时就开始开发算力集群产品。

进入人工智能时代,已经无法像在单机系统时代那样依靠堆芯片来提升算力,而是需要对算力基础设施进行系统化的重塑。除了扩大巨大的算力供给之外,还需要解决算力利用率低和门槛高等问题,最终实现算力的生态化。

今年ChatGPT的出现引发了对算力的需求,GPU在硬件端成为最先受益的产品,英伟达的市值今年已经上涨了66%,达到了1.05万亿美元。

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

以英伟达A100为主的GPU成为大模型必备的优秀选择,但仅仅依靠堆卡已经无法满足“百模大战”的爆发需求。那么,如何最大限度地发挥宝贵的算力资源呢?

由于单个服务器已经很难满足计算需求,将多个服务器连接成一台“超级计算机”正在成为当前算力基础设施的主要方向,这就是算力集群。

华为在2019年就发布了Atlas900AI训练集群,最初由数千颗华为自研的昇腾910(主要用于训练)AI芯片构成,到今年6月已经支持到8000张卡。在刚刚结束的世界人工智能大会上,华为宣布计划在今年年底或明年年初的时候,将集群扩展到超过16000张卡的规模。万卡集群是指使用成千上万张计算卡(例如显卡)进行训练或推理的目标。举例来说,使用1750亿参数量的GPT-3模型进行训练时,如果使用8张V100显卡,训练时间预计需要36年;而使用512张V100显卡,训练时间接近7个月;而如果使用1024张A100显卡,训练时间可以缩短到1个月。

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

根据华为的评估,使用8000张昇腾AI计算卡的Atlas900AI集群来训练100B的GPT-3模型,只需要1天就可以完成训练;而使用16000张计算卡的集群,只需要半天就可以完成训练。但是要想使用万卡集群进行模型训练,并非易事。

中国工程院院士高文指出,全世界能够同时选型适用于1000张计算卡以上的模型的研究人员只有几千人,能够在4000张计算卡以上进行模型训练的人数不超过100人,而能够在10000张计算卡以上进行模型训练的人更少。对于千卡和万卡的训练和推理,对于软件规划和资源调度都面临着巨大挑战。

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

万卡规模的训练对分布式并行训练提出了更高的要求。分布式并行训练是一种高效的机器学习方式,将大规模的数据集分成多个部分,在多个计算节点上并行训练模型。这样可以大大缩短训练时间,提高模型的准确性和可靠性。

昇腾算力集群的分布式并行训练需要依靠华为自研的昇思MindSpore AI框架。昇思MindSpore支持多种模型类型,并且开发了一套自动混合并行解决方案,可以实现数据并行和模型并行的混合并行训练。通过这种双并行策略,在相同的算力和网络条件下,可以实现更大的计算通信比,同时也解决了手动并行架构的困难,提高了大模型开发和调优的效率。

此外,由于分布式并行训练,每训练出一个结果时需要所有的芯片进行同步,这个过程中可能会出现错误的概率。在万卡规模的训练中,对稳定性的要求更高。华为的昇腾AI芯片设计的可靠性和可用性可以实现30天稳定的训练,相比业界最先进的水平约为3天,提升了近10倍的性能稳定性和可用性优势。

突破算力枷锁!昇腾迎战人工智能大模型“暴力计算”时代!

最近,祝语未来科技及多家上市公司宣布将ChatGPT与公司的虚拟数字人融合,研发出更智能、更拟人的虚拟数字人。祝语未来科技主打产品是一款以全新概念打造的“祝语”APP,通过该平台,名人可以免费创建超写实的AI虚拟人模型,并利用公司积累的AI跨模态数字人3.0技术,实现高度拟人化的“思想和行为”,用户可以定制“真人真声”的祝福视频。

现在,无论是对于华为还是其他大模型企业,如何从行业大模型L1中快速生产L2模型,还有部署L2模型到端侧、边侧和云侧,成为打通行业应用最后一公里的问题。

针对这最后一公里,昇腾联合科大讯飞、智谱AI、云从等上游的大模型合作对象,提出了“训推一体化”方案。

简单理解,做模型训练就相当于大学学习阶段,推理部署(训练好的模型在特定环境中运行)就是正式上岗,训推一体化就是“边学习边实习”。

对于整个人工智能领域的算力生态来说,如何尽快打通这最后一公里成了重中之重,打通也就意味着被真正激活,未来才会有无限可能以及可持续的行业生态发展。

继续阅读