天天看點

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

作者:機器之心Pro

機器之心原創

作者:吳昕

這些公司正在用CPU承載AI任務。

近半年來,ChatGPT 所帶來的 AI 熱度是大家能直覺感受到的。

其實,在不那麼直覺的地方,資料也在悄然發生變化:斯坦福大學釋出的「2023 年 AI 指數報告」顯示,2022 年采用 AI 的公司比例自 2017 年以來翻了一番以上。這些公司報告稱,采用 AI 之後,它們實作了顯著的成本降低和收入增加。

雖然 2023 年的資料還沒出來,但僅憑被 ChatGPT 帶火的 AIGC 領域就不難推測,上述數字将在今年迎來新的拐點。AIGC 大有掀起第四次産業革命之勢。

但與此同時,這些企業在建構 AI 基礎設施方面也迎來了新的挑戰。

首先,就算力而言,AI 領域算力需求激增和供給不足形成的沖突在今年變得尤其激烈,就連 OpenAI CEO Sam Altman 都坦言自家公司正被算力短缺問題困擾,其 API 的可靠性和速度問題屢遭投訴。此外,大批公司還面臨這波需求高漲帶來的算力成本上升問題。

其次,在模型的選擇上,不少企業發現,目前讨論熱度最高的大模型其實還沒有一個成熟的商業模式,其安全性等方面還存在問題。以三星裝置解決方案部門為例,他們在啟用 ChatGPT 不到一個月的時間内,就發生了三起資料洩露事件,這讓原本打算直接調用 OpenAI API 的企業打了退堂鼓。此外,自己訓練、部署超大模型同樣很勸退:想象一下,僅僅簡單地向一個大模型發送一次請求,可能就需要昂貴的 GPU 卡進行獨占性的運算,這是很多企業都難以承受的。

不過,話說回來,像 ChatGPT 那樣「無所不知」的超大模型真的是企業所必需的嗎?運作 AI 模型輔助業務就意味要瘋狂擴充 GPU 規模嗎?那些已經利用 AI 提升效益的企業是怎麼做的?在分析了一些企業的最佳實踐之後,我們找到了一些參考答案。

那些已經用上 AI 的公司:性能與成本的艱難抉擇

如果要分析最早應用人工智能提升效益的行業,網際網路是繞不開的一個,其典型工作負載 —— 推薦系統、視覺處理、自然語言處理等 —— 的優化都離不開 AI。不過,随着業務量的激增,他們也在性能和成本等層面面臨着不同的挑戰。

首先看推薦系統。推薦系統在電子商務、社交媒體、音視訊流媒體等許多領域都有廣泛的應用。以電子商務為例,在每年的 618、雙十一等購物高峰,阿裡巴巴等頭部電商企業都會面臨全球龐大客戶群發出的數億實時請求,是以他們希望滿足 AI 推理在吞吐量與時延方面的要求,同時又能確定 AI 推理精确性,保證推薦品質。

接下來看視覺處理,僅美團一家,我們就能找到智能圖檔處理、商戶入駐證照識别、掃碼開單車、掃藥盒買藥等多個應用場景。AI 已經成為其業務版圖中很重要的一部分。不過,随着美團業務與使用者量的高速增長,越來越多的應用需要通過視覺 AI 建構智能化流程,美團需要在保證視覺 AI 推理精度的同時,提升視覺 AI 推理的吞吐率,以支撐更多的智能化業務。

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

最後看自然語言處理。得益于 ChatGPT 帶來的熱度,自然語言處理正獲得前所未有的市場關注與技術追蹤。作為國内 NLP 技術研究的先行者,百度已在該領域建構起完整的産品體系與技術組合。ERNIE 3.0 作為其飛槳文心・NLP 大模型的重要組成部分,也在各種 NLP 應用場景,尤其是中文自然語言了解和生成任務中展現出卓越的性能。不過,随着 NLP 在更多行業中實作商業化落地,使用者對 ERNIE 3.0 也提出了更多細分需求,例如更高的處理效率和更廣泛的部署場景等。

所有這些問題的解決都離不開大規模的基礎設施投入,但困擾這些企業的共同問題是:獨立 GPU 雖然可以滿足性能所需,但是成本壓力較大,是以一味擴充 GPU 規模并不是一個最佳選項。

高成本效益的解決方案:英特爾®第四代至強®可擴充處理器

AI 社群存在一個刻闆印象:CPU 不适合承載 AI 任務。但 Hugging Face 首席傳播官 Julien Simon 的一項展示打破了這種刻闆印象。他所在的公司和英特爾合作打造了一個名為 Q8-Chat 的生成式 AI 應用,該應用能夠提供類似 ChatGPT 的聊天體驗,但僅需一個 32 核英特爾® 至強® 處理器就能運作。

就像這個例子所展示的,用 CPU 承載 AI 任務(尤其是推理任務)其實在産業界非常普遍,阿裡巴巴、美團、百度都用相關方案緩解了算力問題。

阿裡巴巴:用 CPU 助力下一代電商推薦系統,成功應對雙十一峰值負載壓力

前面提到,阿裡巴巴在電商推薦系統業務中面臨 AI 吞吐量、時延、推理精确性等方面的多重考驗。為了實作性能與成本的平衡,他們選擇用 CPU 來處理 AI 推理等工作負載。

那麼,什麼樣的 CPU 能同時頂住多重考驗?答案自然是英特爾® 第四代至強® 可擴充處理器。

這款處理器于今年年初正式釋出,除了一系列微架構的革新和技術規格的更新外,新 CPU 對 AI 運算「更上層樓」的支援也格外引人關注,尤其是英特爾在這代産品中增添的全新内置 AI 加速器 —— 英特爾進階矩陣擴充(AMX)。

在實際的工作負載中,英特爾® AMX 能夠同時支援 BF16 和 INT8 資料類型,能夠確定該 CPU 像高端通用圖形處理器(GPGPU)一樣處理 DNN 工作負載。BF16 動态範圍與标準 IEEE-FP32 相同,但精度較 FP32 變低。在大多數情況下,BF16 與 FP32 格式的模型推理結果一樣準确,但是由于 BF16 隻需要處理 FP32 一半尺寸的資料,是以 BF16 吞吐量遠高于 FP32,記憶體需求也大幅降低。

當然,AMX 本身的架構也是為加速 AI 計算所設計的。該架構由兩部分元件構成:2D 寄存器檔案(TILE)和 TILE 矩陣乘法單元(TMUL),前者可存儲更大的資料塊,後者是對 TILE 進行處理的加速單元,可在單次運算中計算更大矩陣的指令。

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

憑借這種新的架構,英特爾® AMX 實作了大幅代際性能提升。與運作英特爾® 進階矢量擴充 512 神經網絡指令(AVX-512 VNNI)的第三代英特爾® 至強® 可擴充處理器相比,運作英特爾® AMX 的第四代英特爾® 至強® 可擴充處理器将機關計算周期内執行 INT8 運算的次數從 256 次提高至 2048 次,執行 BF16 運算的次數為 1024 次 ,而第三代英特爾® 至強® 可擴充處理器執行 FP32 運算的次數僅為 64 次。

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

英特爾® AMX 的進階硬體特性為阿裡巴巴的核心推薦模型帶來了 AI 推理性能突破,并保證了足夠的精度。此外,阿裡巴巴還使用英特爾® oneAPI 深度神經網絡庫 (英特爾® oneDNN),将 CPU 微調到峰值效率。

下圖顯示,在 AMX、BF16 混合精度、8 通道 DDR5、更大高速緩存、更多核心、高效的核心到核心通信和軟體優化的配合下,主流的 48 核第四代英特爾® 至強® 可擴充處理器可以将代理模型的吞吐量提升到 2.89 倍 ,超過主流的 32 核第三代英特爾® 至強® 可擴充處理器,同時将時延嚴格保持在 15 毫秒以下,推理精度依然能夠滿足需求。

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

優化後的軟體和硬體已經部署在阿裡巴巴的真實業務環境中, 它們成功通過了一系列驗證,符合阿裡巴巴的生産标準,包括應對阿裡巴巴雙十一購物節期間的峰值負載壓力。

而且,阿裡巴巴發現,更新為第四代英特爾® 至強® 可擴充處理器帶來的性能收益遠高于硬體成本,投資收益非常明顯。

美團:用 CPU 承載低流量長尾視覺 AI 推理,服務成本直降 70%

前面提到,美團在業務擴充中面臨視覺 AI 推理服務成本較高的挑戰。其實,這個問題并非鐵闆一塊:部分低流量長尾模型推理服務的負載壓力與時延要求是相對較低的,完全可以用 CPU 來承載。

在多個視覺 AI 模型中,美團通過采用英特爾® AMX 加速技術,動态将模型資料類型從 FP32 轉換為 BF16,進而在可接受的精度損失下,增加吞吐量并加速推理。

為了驗證優化後的性能提升,美團将使用英特爾® AMX 加速技術轉換後的 BF16 模型,與基準 FP32 模型的推理性能進行了比較。測試資料下圖所示,在将模型轉化為 BF16 之後,模型推理性能可實作 3.38-4.13 倍的提升,同時 Top1 和 Top5 精度損失大部分可以控制在 0.01%-0.03%。

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

得益于性能的提升,美團能夠更加充分地釋放現有基礎設施的潛能,降低在 GPU 部署與運維方面的高昂成本,并節省 70% 的服務成本。

百度:将蒸餾後的模型跑在 CPU 上,解鎖更多行業、場景

衆所周知,模型中更多的層數、參數意味着更大的模型體積、更強的計算資源需求以及更長的推理耗時,對于業務響應速度和建構成本敏感的使用者而言,無疑提高了引入和使用門檻。是以,在 NLP 領域,模型小型化是一個常見的優化方向。

百度也采用了這一做法,借助模型輕量化技術對 ERNIE 3.0 大模型進行蒸餾壓縮,進而将其推廣到更多行業與場景 。這些輕量版的模型(ERNIE-Tiny)不僅響應迅速,還有一個重要優勢:無需昂貴的專用 AI 算力裝置就能部署。是以,引入更強的通用計算平台和優化方案,就成了助力 ERNIE-Tiny 獲得更優效率的另一項重要手段。

為此,百度與英特爾展開深度技術合作:一方面将第四代英特爾® 至強® 可擴充處理器引入 ERNIE-Tiny 的推理計算過程;另一方面,也推進了多項優化措施,例如通過英特爾® oneAPI 深度神經網絡庫來調用英特爾® AMX 指令等,以確定 ERNIE-Tiny 可以更為充分地利用 AMX 帶來的性能加速紅利。

來自對比測試的資料表明,相比通過英特爾® AVX-512_VNNI 技術來實作 AI 加速的、面向單路和雙路的第三代英特爾® 至強® 可擴充處理器,ERNIE-Tiny 在更新使用内置英特爾® AMX 技術的第四代英特爾® 至強® 可擴充處理器後,其整體性能提升高達 2.66 倍,取得了令人滿意的效果。

成本直降70%的秘密:這些企業找到了一種高成本效益的AI打開方式

目前,各個 ERNIE-Tiny 不僅已部署在零門檻 AI 開發平台 EasyDL、全功能 AI 開發平台 BML 和 ERNIEKit (旗艦版) 産品中,它們也将與平台和産品的其它能力一起協同,在基于第四代英特爾® 至強® 可擴充處理器的基礎設施上,為 使用者提供文本分類、關系抽取、文本生成以及問答等能力。

從阿裡巴巴、美團、百度的實踐經驗可以看到,在真實的生産環境中,真正發揮作用的依然是一些規模沒那麼大的 AI 模型。這些模型的部署已經有了可借鑒的成熟方案,可以借助英特爾® 至強® CPU 以及配套的軟硬體加速方案獲得顯著的成本效益。

當然,随着 AIGC 的強勢崛起,不少企業也将目光瞄準了這類大一些的模型。但正如前面所讨論過的,無論是調用超大模型 API 還是自己訓練、部署都有各自的問題,如何選擇一種經濟、高效又安全的解決方案是擺在企業面前的棘手難題。

AIGC 時代已來,企業如何應對?

企業擁抱 AIGC 就意味着一定要有一個「無所不知」的超大模型嗎?對此,波士頓咨詢公司(BCG)給出的答案是否定的。

他們選擇的解決方案是利用自己的資料訓練一個行業專用模型。這個模型可能沒有那麼大,但可以洞察 BCG 過去 50 多年中高度保密的專有資料。同時,所有的 AI 訓練和推理都完全符合 BCG 的安全标準。

這套解決方案的背後是一台英特爾 AI 超級計算機,該計算機搭載英特爾® 第四代至強® 可擴充處理器和 Habana® Gaudi2® AI 硬體加速器,前者在 PyTorch 上的 AI 訓練性能最高能提升到上一代産品的 10 倍,後者在計算機視覺(ResNet-50)和自然語言處理(BERT 微調)方面的表現優于英偉達 A100,在計算機視覺方面幾乎與 H100 不分伯仲。二者強強聯合,為 BCG 提供了一套經濟高效的 AIGC 解決方案。

在一個聊天機器人界面上,BCG 員工能夠從冗長的多頁文檔清單中,通過語義搜尋來檢索、提取并彙總有效資訊。BCG 報告稱,這與現有的關鍵字搜尋解決方案相比,其使用者滿意度提高了 41%,結果準确性增長了 25%,工作完成率提高了 39%。

由此可見,無論是傳統的中小規模 AI,還是目前頗有前景的 AIGC 行業大模型,GPU 都不是 AI 加速的唯一選擇。但無論是何種規模的模型,英特爾都給出了頗具成本效益的軟硬體組合解決方案。

對于想要應用 AI 提升效益的企業來說,選擇何種規模的模型、搭建怎樣的軟硬體基礎設施都沒有标準答案,所謂的超大模型、超大 GPU 算力叢集可能都非必需。根據業務特點和屬性選擇适合自己的技術方案才是實作最優解的重要因素。

參考連結:

https://www.intel.cn/content/www/cn/zh/artificial-intelligence/amx-tencent-bert-model-search-applications.html

https://www.intel.cn/content/www/cn/zh/cloud-computing/alibaba-e-comm-recommendation-system-enhancement.html

繼續閱讀