近日,英特爾、Arm和英偉達共同釋出了用于人工智能通用交換格式的規範草案,目的是使人工智能系統開發更快、更高效。
arm公司 圖源:google
他們表示,所提出的“8位浮點(FP8)”标準有可能通過優化硬體記憶體使用和人工智能訓練(即工程人工智能系統)和推理(運作系統)來加速人工智能開發。
在開發人工智能系統時,資料科學家面臨着關鍵的工程選擇,而不僅僅是收集資料來訓練系統。
一種是選擇一種表示系統權重的格式-權重是從訓練資料中學習到的影響系統預測的因素。
語言模型AI推理 圖源:EEWORLD
權重使GPT-3這樣的系統能夠從一個句子長度的提示中生成完整的段落,或者使DALL-E2能夠根據一個圖檔标題建立逼真的肖像。
常見的格式包括半精度浮點或FP16,它使用16位來表示系統的權重,以及單精度(FP32),它使用32位。
半精度或更低精度降低了訓練和運作人工智能系統所需的記憶體空間,同時加快了計算速度,甚至減少了帶寬和功耗。但他們犧牲了一些準确性來實作這些收益;畢竟,16位比32位要少。
語言模型AI訓練 圖源:NVIDIA
然而,包括英特爾、Arm和英偉達在内的許多業内人士都将FP8(8位)作為最佳選擇。
在一篇部落格文章中,英偉達産品營銷總監Shar Narasimhan指出,FP8格式在包括計算機視覺和圖像生成系統在内的所有用例中顯示出與16位相當的精度,同時具有“顯著”的加速。
英偉達公司 圖源:google
英偉達、Arm和英特爾表示,他們将以開放格式免費提供FP8格式許可。三家公司在一份白皮書中對此進行了更詳細的描述。
Narasimhan表示,這些規範将送出給IEEE,一家在多個技術領域維護标準的專業組織,供日後考慮。
Narasimhan說:“我們相信,擁有一個通用的交換格式将帶來硬體和軟體平台的快速發展并提升互操作性,進而促進人工智能計算“。
人工智能AI晶片概念圖 圖源:google
當然,三家公司此舉并非完全出于公心。
英偉達的GH100 Hopper架構本身已經支援FP8,英特爾的Gaudi2人工智能訓練晶片組亦是如此。
但通用的FP8格式也将有利于AMD、Groq、IBM、SambaNova、Graphcore和Cerebras等競争對手,所有這些公司都曾嘗試或采用某種形式的FP8進行系統開發。
Graphcore 的 Colossus MK2 IPU 圖源:google
在今年7月的一篇部落格文章中,Graphcore聯合創始人兼首席技術官西蒙·諾爾斯(Simon Knowles)寫道,“8位浮點的出現為人工智能計算提供了巨大的性能和效率優勢”,并斷言這也是該行業“一個機會”,以達成“單一、開放的标準”,而不是采用多種互相競争的格式。