天天看点

AWS Graviton3:遵循摩尔定律又有自己节奏

作者:企业存储技术

注:本文来自一位专家朋友Winnie shao博士的原创大作,希望大家喜欢。

亚马逊云科技的 Graviton 3

1、Graviton3的设计与创新

AWS Graviton3:遵循摩尔定律又有自己节奏

不仅仅是晶体管数目,如下图,从2018年的Graviton第一代,到今年的Graviton 3,可以清楚的看到,一代一次显著性能的飞跃。

(注:)

AWS Graviton3:遵循摩尔定律又有自己节奏

其实无论是用Chiplet设计,还是采用DDR5、PCIe Gen5、5nm工艺,先进归先进,但是阿里平头哥10月发布的的倚天710也都有,随后的Intel,AMD也都有,因此算是常规操作。不过Graviton系列的功耗,是显著低于前面说到的几个芯片的。以前,我一直没有想明白这个参数设计,直到看到Amazon C7g的服务器开盖图。这是在一个机箱内放了3个Graviton3,成为一个3节点的高密度服务器。换句话说,一个机箱内放入3个64核的服务器节点,如果换算成常规2路CPU,则相当于每个CPU是96核。如果Graviton2是常规的2路服务器设计,再考虑上主频的提升100Mhz,那么Graviton3的服务器是Graviton 2性能近2倍。这非常符合亚马逊云科技的本色,他们追求的是相同总功耗下的整服务器/整机架的性能最大提升,从芯片设计阶段,就通盘考虑过从服务器节点——到机架整体的合理功耗预算分配,而才能确定的设计方案。

最后一定要补上一句, 亚马逊云科技能做这样设计3节点服务器的另一个原因,是因为他们有能够支持多服务节点的Nitro卡,否则每个节点都需单独配网卡,会部分抵消高密度服务器设计的优势。

AWS Graviton3:遵循摩尔定律又有自己节奏

2、CPU做机器学习

Amazon Graviton 3的设计中,还有一点要特别画一个重点。它支持了bfloat16,并且提升了3倍的机器学习性能。Intel的cooper lake、AMD的Zen4、IBM Power10也都支持了bfloat16,而且都3倍、甚至20倍的提升了机器学习的性能。CPU阵营难得一见的齐心合力,打算增强自己的人工智能业务能力。

AWS Graviton3:遵循摩尔定律又有自己节奏

3、与Graviton3同步的C7g实例标志着arm服务器生态成熟

除了Graviton3 在芯片、服务器上的各种创新之外,还有一点和2019年Graviton2的发布不一样。与Graviton3同时发布的还有一个实例Amazon C7g,虽然还是预览版,但是相对于Graviton2发布3个月之后才发布实例,AmazonGraviton家族的实例研发节奏明显快了。相对于同行的仅仅芯片,尚无实例上线的时间的新闻发布,Graviton3不仅仅有芯片、有服务器,还有实例预览,甚至还有客户的背书,产品成熟度有明显优势。

和Graviton3翻倍的浮点性能,3倍的机器学习性能相呼应。Amazon C7g是一个定位于高性能工作负载的实例。亚马逊云科技推荐的应用,包括高性能计算、批处理、电子设计自动化(EDA)、媒体编码、科学建模和基于CPU的机器学习推理。这跟当年Graviton1支持的是 Web 服务器、容器化微服务、数据/日志处理和其它可以在更小的内核上运行的轻量级工作负载,不可同日而语了。

其实Amazon Graviton2 处理器已经在性能和功能上都实现了巨大的飞跃,成为ARM阵营的领头羊。它们为 Amazon EC2 通用型(M6g、M6gd、T4g)、计算优化型(C6g、C6gd、C6gn)和内存优化型(R6g、R6gd、X2gd)实例提供支持,工作负载类型相当广泛。本次大会上又发布的AmazonG5g,这是一个Graviton + Nvidia T4G的组合,还有两个配合最新的NitroSSD的存储优化实例Im4gn and Is4gen。最后要重点提一下,数据库的标杆产品SAPHANA也支持Graviton家族了,这不仅仅是Graviton家族的成功,更是ARM服务器生态的一大步。

其实从arm进入服务器市场开始,对于arm是否能撬动服务器生态持怀疑态度。从三大Linux,到Java OpenJDK、gcc/LLVM,到Ngnix、MySQL、Redis,arm在开源软件阵营获得了很好的支持。但是像SAP HANA这样的ISV(独立软件提供商)的支持,是Graviton家族开拓arm服务器生态的重要里程碑事件。

AWS Graviton3:遵循摩尔定律又有自己节奏

不仅仅是生态成熟,实例丰富。Graviton3再次提升了实际应用性能。在亚马逊云科技展示的F1应用测试中,Graviton3比Graviton2 快40%。对于Nginx,Graviton3有超60%的性能提升,其它应用,也至少有25%的性能提升。

AWS Graviton3:遵循摩尔定律又有自己节奏
AWS Graviton3:遵循摩尔定律又有自己节奏

小结

现在回头看当年3.5亿美金收购Annapurna lab真是回报超高。先是业界领先的Nitro系列,接着是Graviton arm CPU家族,再接着是机器学习两件套支持推理的inferentia和支持训练的Trainium。数据中心的三大芯片,DPU、CPU、AIxPU,整整齐齐。

亚马逊云科技的CEO在采访中谈到芯片创新的时候说,这是改变游戏规则的能力。Graviton产品家族验证了从借助arm CPU IP的敏捷芯片设计,到芯片和服务器联合设计,到快速部署上云的互联网速度。这是一个用创新推动高质量服务的时代。

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

尊重知识,转载时请保留全文。感谢您的阅读和支持!

继续阅读