熟悉亞馬遜雲科技中國峰會的科技發燒友都知道,峰會第二天的開場主題演講無異于一場“硬核”産品釋出會。
2023年亞馬遜雲科技中國峰會的Day2,亞馬遜雲科技大中華區産品部總經理陳曉建、亞馬遜雲科技全球産品副總裁Matt Wood博士先後奉獻了上下各半場高密度輸出。
“如果把所有這些放在一起——機器學習的創新、定制化的晶片,以及利用Amazon Bedrock使用模型,你會發現‘從未有過如此簡單、低成本的,借助機器學習進行代碼建構的方式’。”Matt Wood博士談到。
亞馬遜雲科技全球産品副總裁Matt Wood博士
在今天,生成式 AI 已經在創意、搜尋、互動,以及智能決策等方面展示出廣闊的應用前景。
陳曉建指出:“面對算力需求井噴所帶來的挑戰,我們通過自研晶片提供更好的成本效益,通過各種豐富的計算、網絡、存儲等各種産品的組合應對突發的算力需求,通過Serverless有效降低運維的複雜性,進而簡化算力的使用,全面滿足使用者的多樣化的算力需求。”
亞馬遜雲科技大中華區産品部總經理陳曉建
放眼席卷全球的智能化轉型和創業浪潮,與大語言模型與生成式AI相關的領域依然有着相當高的門檻。
而為此,亞馬遜雲科技已經準備好了一整套組合拳。
Matt Wood博士對這套組合拳做了詳細地展開:“首先要提供對一流基礎模型的通路,第二需要提供安全私密的環境去定制模型,第三需要通過定制晶片提供低成本和低延遲通路;第四需要搜尋機會提升使用體驗。”
大語言模型是熱度最高的焦點話題,亞馬遜雲科技推出的Amazon Bedrock提供對衆多基礎模型的通路,具體來說,這項新服務允許使用者通過 API 通路來自 AI21 Labs、Anthropic、Stability AI 和亞馬遜的基礎模型。
Amazon Bedrock已經成為客戶使用基礎模型建構和擴充生成式AI應用程式的極簡方案,為所有開發者降低使用門檻。在 Amazon Bedrock上,使用者可以通過可擴充、可靠且安全的亞馬遜雲科技托管服務,通路從文本到圖像的一系列的基礎模型。
亞馬遜雲科技自己的Amazon Titan是一系列不同的模型的庫,可實作文本歸納總結、搜尋結果嵌入、有害内容删減等,使用者可以非常安全、隐私地對這些模型做優化和微調。
亞馬遜雲科技還開發了基于機器學習的Amazon CodeWhisperer ,它為開發人員提供代碼生成服務,支援包括Java、JavaScript和Python等在内的15種不同的程式設計語言。
并且,CodeWhisperer 對個人使用者完全免費。據介紹,在測試中與未使用CodeWhisperer的參與者相比,使用者完成任務的速度平均快57%,成功率高27%。
對于亞馬遜雲科技在硬體方面的舉措,陳曉建進行了詳細地闡述:針對算力需求緊缺,亞馬遜雲科技提供全面深入的基礎設施能力,包括Intel、AMD、英偉達,和自研的CPU及加速晶片産品。
陳曉建系統複盤了亞馬遜雲科技自研晶片之路,過往十餘年來亞馬遜雲科技在晶片領域的投入,也讓其可以從容應對突發的算力需求井噴。
2013年,亞馬遜雲科技推出雲伺服器虛拟化引擎Amazon Nitro系統,Nitro也是亞馬遜雲科技的第一款自研晶片産品,去年亞馬遜雲科技推出的第五代Nitro将每瓦性能提高了40%。
如此幅度的提升不容小觑:
- 實作了非常輕量級的虛拟化。在此前業界經常看到的虛拟化損耗通常在20-30%之間,Nitro通過硬體虛拟化,整個性能損耗不到1%;
- 實作了網絡和存儲在硬體級别的隔離機制,導緻我們在使用者通信和擁有存儲的資料通信的時候之間是完全隔離的,不會造成互相的幹擾;
- 在硬體層面實作了硬體的加密,任何進出Nitro的資料包都會進行硬體級别的加密,最大限度保證使用者資料通信的安全。
亞馬遜雲科技Arm架構的通用處理器Graviton 3與上一代産品相比,計算性能提高多達25%,浮點性能提高多達2倍,加密工作負載性能最多加快2倍。第四代産品Gravtion3E則在針對高性能計算應用場景的向量計算性能上,再提升了35%。
亞馬遜雲科技認為,未專門針對機器學習優化的GPU将難以長期勝任雲上機器學習任務,為此,針對機器學習的兩個環節,亞馬遜雲科技分别推出了用于訓練的Amazon Trainium晶片和用于推理的Amazon Inferentia晶片。
以HuggingFace BERT模型作為案例來看,基于機器學習訓練晶片Trainium的Trn1執行個體和通用的GPU執行個體對比,在訓練的吞吐率上面,單節點的吞吐率可以提升1.2倍,而多節點叢集的吞吐率可以提升1.5倍,從成本考慮,單節點成本可以降低1.8倍,叢集的成本更是降低了2.3倍。
而增強型Trn1n執行個體的網絡帶寬躍升至1.6Tbps,可将萬餘個Trainium晶片建構在一個超大規模叢集上,實作對超大模型進行并行訓練。
2019年推出了第一代用于機器學習的推理晶片Inferentia,所對應的執行個體Inf1和同樣基于通用GPU的EC2執行個體相比,帶來了70%成本的降低;2022年又推出了第二代推理晶片Inferentia2,進一步提升了4倍吞吐量,延遲隻是之前的1/10,通過優化,第二代Inferentia可以大規模部署複雜的模型,例如大型語言模型和Diffusion類模型。
- Inferentia在設計的時候就考慮到了吞吐率和延遲的優化,使得使用者兩者可以“魚與熊掌,兩者兼得”;
- 以自然語言常見的BERT模型為例,In2執行個體的吞吐可以提升三倍,延遲降低了8.1倍,而成本隻是通用GPU執行個體的1/4;
- 以開源模型OPT-30B為例,相比于通用GPU EC2的執行個體,In2執行個體吞吐率增加了65%,而推理成本則降低了52%,如果用更大的660億參數的OPT-66B為例,通用GPU已經力不從心,但In2執行個體依然可以保持每秒351個token數的吞吐量;
- 視覺類模型以Stable Diffusion 2.1的版本為例,Inf2執行個體可實作50%的成本節約。
自研晶片為雲端彈性資源供給提供更大的靈活度,陳曉建介紹:亞馬遜雲科技提供600多種不同的計算執行個體,從處理器、網絡和存儲等各種服務都能夠與計算進行很好的結合,以積木的方式搭建出一個豐富靈活的計算執行個體的資源,滿足多種不同算力的要求。
以存儲為例,資料規模到達PB級别時存儲方式變得非常重要,“熱、溫、冷、凍”不同類型的存儲方式,成本和性能都有很大差别。Amazon S3對象存儲提供8種存儲層級,同時提供智能分層,自動選擇最适合的存儲層級。
算力也不是靠無限堆硬體來提升的,在”開源“的同時”節流“同樣重要,馬遜雲科技在不斷探索如何将雲的彈性、靈活性、按需付費的特性發揮到極緻。
陳曉建繼續展開:在這個過程中,我們逐漸推動着雲服務全面邁向Serverless。現在,亞馬遜雲科技已經實作了全棧資料服務的Serverless化,開啟了雲服務全面Serverless的時代,讓客戶無需預置或管理基礎設施,就可以運作幾乎任何類型的應用程式或後端服務代碼,幫助客戶最大限度減輕運維工作,并增加業務靈活性,更好地應對業務的各種不确定性。
生成式AI一定會成為長期話題,Matt Wood博士指出:技術能力往往遵循S曲線。你永遠不知道你在S曲線上的位置,除非你向後看。希望明年再會的時候我們能夠回顧一下在S曲線的頭部有哪些新的點,另外我們在未來有哪些展望,我們希望在這個曲線上漸進的推動。我們相信明年回頭看的時候,我們看到我們已經達到了S曲線的頂點,達到了快速爆發式發展的點,有很多的發明和應用。
但這個話題并不會代表全部,任何企業的基本盤都是不斷創新。陳曉建針對國内出海企業談到:越來越多的中國企業在全球大展拳腳,打造全球化的企業對IT架構提出更高要求。亞馬遜雲科技提供從中心到邊緣的多種産品的解決方案,包括覆寫全球的基礎架構,以及快速部署穩定系統的能力,還有全面支援全球各個國家和地區業務合規能力,成為使用者創造堅實底層架構的基石。
為此,亞馬遜雲科技着力打造快速部署可靠系統的能力,包括:
- 區域隔離,多可用區設計:每個區域都會有多個可用區,任何單一可用區的故障不會影響到其他可用區的業務,最大限度降低服務的中斷;
- 控制面和資料面解耦:更多地依靠資料面來保持服務運作、降低對控制面的依賴,能夠提高整體穩定性;
- 蜂窩架構:把系統分割成多個微小的、單一的、互相之間隔離的蜂窩狀單元,能夠在問題出現時降低爆炸半徑,通過爆炸半徑能夠把故障控制在一個單元以内;
- 随機分片:是對蜂窩架構的進一步優化。它把客戶的通路随機配置設定到不同的單元中,說單個單元的故障并不會對整個系統造成影響,還是可以通過其他的單元完成;
- 服務責任模型:通過明确定義亞馬遜雲科技與客戶責任區間的方式,保障客戶在應用的任何階段都能享有對所寫代碼和程式的控制權;
- 營運就緒審查:通過對亞馬遜雲科技大量營運案例進行分析,對過往的問題進行複盤,進而使用者在整個部署的時候能夠避免重制他們之前所發生的問題;
- 安全的持續部署:可以最大限度減少因錯誤部署而對生産造成的影響;
- COE糾錯流程:了解問題所發生時候的系統狀态,以防止類似的錯誤再次發生。
陳曉建引用亞馬遜雲科技CTO Werner Vogels所說“Everything fails, all the time”。他指出:所有的功能子產品都有可能出故障,我們不能完全避免故障的發生,但是我們通過努力,把風險降到最低。
Matt Wood博士則強調了資料的重要價值,以及亞馬遜雲科技的三項戰略:
首先,建構全面的工具集,滿足現在和未來所需。亞馬遜雲科技推出15種專門建構的雲上托管資料庫服務,為各類使用者的應用場景提供完美契合的資料服務;亞馬遜雲科技的分析服務已全面實作Serverless化,包括互動式查詢服務Amazon Athena、大資料處理服務Amazon Managed Streaming for Apache Kafka (Amazon MSK)、實時分析服務Amazon Kinesis、資料倉庫服務Amazon Redshift、資料內建服務Amazon Glue、商業智能服務Amazon QuickSight以及營運分析服務Amazon OpenSearch Service。
其次,通過輕松內建,連接配接所有資料。亞馬遜雲科技提出了Zero-ETL的願景,緻力于實作無縫的資料轉換和調用,而使用者不用編寫任何的代碼。亞馬遜雲科技最近推出了Aurora新的服務——Amazon Aurora可以與Amazon Redshift進行Zero-ETL內建,允許使用 Amazon Redshift 對來自Aurora的PB級事務資料進行近實時分析和機器學習 (ML)。事務資料在被寫入Aurora後的幾秒鐘内,即可用在Amazon Redshift中,是以客戶不必建構和維護複雜的資料管道來執行提取、轉換和加載 (ETL) 操作。
再次,建構端到端的資料治理。通過資料治理,加速并保障資料流通。亞馬遜雲科技去年推出的一項全新的資料管理服務Amazon DataZone,可以讓客戶更快、更輕松地對存儲在亞馬遜雲科技、客戶本地和第三方來源的資料進行編目、發現、共享和治理。借助Amazon DataZone,管理者和資料資産管理者可以使用精細的控制工具管理和治理資料通路權限,確定資料通路發生在正确的權限和正确的情境之下。
演講中,Matt Wood博士引用了科幻作家威廉·吉布森的名言“未來已至,隻是還沒有均勻分布”。他表示:亞馬遜雲科技始終希望将擁有廣闊前景的且令人興奮的技術提供給每個人,在雲計算時代我們提供通過API通路雲上應用的快捷通路,這一願景不會因為生成式AI的出現而改變,我們希望将這項技術交到每一個建構者和每一個商業使用者的手中。