AI，能有多快

人工智能（AI）早已渗透到我们生活的各个角落。

它不仅是围棋、电子游戏等竞技中战无不胜的最强对手，还正帮助各个领域的科学家解决难题，不仅如此，我们通信软件里语音转文字、一键翻译功能，或者购物网站的智能推荐……它们的背后可能都“躲着”AI。

无论是哪种AI，都离不开强大的计算系统的支持。就好像过去的工业革命首先要有精密测量、原材料和制造方面的重大突破来支持一样，AI也需要全新的技术来推动。

在这样一个“AI时代”，来自全球数十家AI领军机构的计算系统“同台竞技”又是一种怎样的体验？

这样的“奥林匹克”真的存在。著名的机器学习开放联盟MLCommons每年都会组织名为MLPerf的基准测试，它们能够在AI计算系统的速度和效率等方面给出统一的测量标准，并让研究人员通过比较各种技术创新，推动最佳创意和解决方案的进步。

今年4月，MLPerf刚刚公布了2022年第一轮推理性能测试（MLPerf Inference V2.0）的结果，让我们对目前顶尖计算系统的性能有了新的认识。

AI的训练与推理

MLPerf测试每年有4次，其中包括训练性能测试和推理性能测试。为了更好地理解这个语境下的“训练”和“推理”，我们可以先简单说一说AI的工作原理，它们为什么如此与众不同，如此富有魅力。

AI学者贾内尔·沙内（Janelle Shane）在《你看起来好像……我爱你：AI的工作原理以及它为这个世界带来的稀奇古怪》一书中举了一个生动的例子：如何训练AI讲笑话。

如果采用传统编程让计算机讲一则笑话，我们就必须把笑话中所有“规则”用程序语言告诉它。无论程序最终变得多么复杂，本质上仍然是我们为计算机设定好了规则，它去具体地解决这个问题。

但训练AI截然不同，许多AI专家都认同，和传统编程相比，编写AI程序更像“教学生”。

用沙内的话说，简单来讲（当然现实情况显然不会这么简单），我们只要丢给AI一些已有的笑话，用一些基本指令告诉它目标是写笑话，再加上一大堆随机的字符。“然后，我就去取我的咖啡了。”而AI便开始了工作。

它可能会从瞎猜开始，一次又一次地研究数据集并自我调整，自行摸索出更多规则。当然，某些规则也可能不小心让它们误入歧途，比如，曾有一个斯坦福大学的研究团队尝试训练AI来区分健康皮肤和皮肤癌的图片，结果最终却一不小心训练出了一个尺子测量工具，因为数据集中许多肿瘤照片上都有一把用来标度大小的尺子。

但更多时候，在得当的训练下，AI能发现程序员甚至任何人都不知道的大量规则，建立起属于自己的“知识体系”。

完成了训练的AI就像掌握了考点的学霸，它们还有能力将这些所学应用到具体的场景中，根据前所未见的新数据，迅速地给出答案，也就是所谓推理的能力。

这就是AI成为最具吸引力的解决方案的关键所在，它具有无穷的潜力和创造力。

然而，整个过程都离不开海量的数据和计算，一切需要在尽可能短的时间内完成。这就对计算系统的性能有了很大的要求。

MLPerf测试就是从训练和推理这两个方面入手，对计算性能展开全面的考察。

MLPerf测什么？

在MLPerf测试中，训练性能测试相对简单。它主要分为单机和集群两种场景，考察计算系统完成主流AI模型训练的时间，完成得越快，自然意味着系统性能越强。

但此次公布的推理性能测试则更加全面，设置上也更复杂，它就像体育比赛中的全能比赛或者铁人三项，更准确地说是“铁人33项”。推理性能测试针对不同场景，设置了各种指标，考察计算系统完成各类AI任务的速度和能力。它也因此成为行业中的权威标杆之一。

推理性能测试可以首先分为固定任务和开放优化两大类。其中，固定任务更强调同类比较，像是让不同的计算系统在同一起跑线上“赛跑”，因此也相对更受重视。

推理性能测试分为固定任务和开放优化两个类型。（图／原理）

在固定任务中，为了保证全面性，6大应用场景被囊括其中，每个场景都选取了目前最主流的AI模型作为测试任务。

推理性能测试的6大应用场景。（图／原理）

这些场景都非常贴近实际应用，和我们的生活息息相关。举一些最简单的例子，比如在计算机视觉中，图像分类是最基本的问题之一。无论是我们在网上检索图片，还是手机相册帮助我们自动归类照片，或者对视频的智能分析时，计算机的基本任务之一就是根据图像中的信息将不同图片区分开来。

而对计算机和人类的交互而言，语言模型是根本。能够理解人类语言的NLP（自然语言处理）可以应用在翻译、问答、文本生成等各个方面，各类智能助手都离不开它。

除此之外，应用场景中还囊括了一些更专业的方向，比如生物医学图像分割。我们在医院拍摄的CT、MRI这些医学影像和普通的照片不太一样，它们很多时候是“块状”的，也就是说，一整张图由很多个切片构成，这也给图像处理带来了额外的挑战。生物医学图像分割就是对这些医学影像中器官或病变进行分割，从而更精准地识别和分析，这也是计算机辅助医疗中的关键一步。

针对这些应用场景，测试设置了不同考察维度。可以这么理解，这其实就是进一步将应用场景细化，创造出更丰富的贴合实际的情境，从而全方位地检验计算系统在各种可能发生的情况下的表现。

针对不同模型，测试还设置了不同考察维度，包括数据中心和边缘中的不同场景。（图／原理）

新的纪录，新的未来

这次MLPerf推理性能测试共有19家机构参与，总计超过千项数据被提交。

其中，浪潮AI服务器在总共33项任务中，斩获了27项冠军，其中包括数据中心全部16项冠军，以及边缘17个单项中的11项冠军，在各项任务中创下了新的AI推理速度纪录。

浪潮AI服务器在本次MLPerf推理性能测试（数据中心离线场景）中创造的各项纪录。（图／原理）

这代表着当前最先进的AI计算水平。随着AI应用在各个行业中的持续深化，更快的推理速度将带来更高的AI应用效率和能力，加速产业智能化转型。

相比前一次的测试结果，浪潮AI服务器将图像分类、语音识别和自然语言处理任务的推理性能分别提升了31.5%、28.5%和21.3%，换句话说，系统在自动驾驶、语音会议、智能问答和智慧医疗等各类场景中，都有能力更高效、快速地完成各项智能任务。

在强大算力的驱动下，数字技术会在实体世界得到更深度的应用。将来，我们或许都有机会驾驶着高度自动化的汽车，在智能交通系统的帮助下，用最快捷、最安全的方式到达想去的地方。只要对着智能助手说两句话，我们下单的用品就能在最短时间内即刻送达。有了语音实时识别和翻译，语言的壁垒也逐渐消融，我们有了更多沟通交流的机会，认识更广阔的的世界。

正如浪潮信息所言，智慧时代，计算力就是生产力，智算力就是创新力。它将成为推动新一轮科技革命和产业变革的重要力量。

#创作团队：

撰文：Takeko

排版／设计：雯雯

#参考来源：

https://mlcommons.org/en/

https://mlcommons.org/en/news/mlperf-inference-1q2022/

[美] 贾内尔·沙内，《你看起来好像……我爱你：AI的工作原理以及它为这个世界带来的稀奇古怪》，中信出版·鹦鹉螺，2021年4月

测试结果相关资料由浪潮信息提供。

#图片来源：

封面图：原理

首图：Mike MacKenzie, Flickr, CC BY

*本次推送由浪潮信息赞助。

AI，能有多快

继续阅读

苹果发新 iPad，4799 元起、M4 芯片抢眼；AIGC 岗位暴涨300%；马斯克称太空探索用不上人工智能｜极客早知道

人工智能力促音乐产业变革

融媒·深调查丨“+”什么，怎么“+”——现代生活如何拥抱“人工智能+”？

Jülich新人工智能基础模型推进科学应用

全球人工智能治理：藩篱与路径

AIGC相关岗位需求暴涨去年人工智能相关新增企业破50万家

人工智能侵权讨论加剧，跑量出版背后的作者困扰｜4月世界文学热点

生成式人工智能对认知安全的影响 | YEF2024

虚拟仿真实训室引入高校“人工智能+高等教育”应用场景

从语言大模型到文生视频大模型，现实不存在了吗？颠覆性的技术革命正发生，与人工智能顶尖专家共话算力未来

AI人工智能+三色激光技术 Vidda发布2024旗舰电视、投影新品

生成式人工智能招聘市场火爆，平均年薪超过40万元

用人工智能预测高考作文题目？360智脑的结论还真靠谱

人工智能加持 Vidda2024新品实现IMAX画质体验

人工智能业绩第一股，润泽科技2023年营收增长60%

报道：OpenAI计划下周一宣布人工智能搜索引擎