天天看點

高通用第二代骁龍7+,給手機晶片來了次降維打擊

作者:機器之心Pro

機器之心原創

作者:澤南

好的 AI 應用,就是要讓更多的人能玩得起來。

上星期,OpenAI 釋出 GPT-4 讓語言大模型的發展進入了新紀元,AI 的智商顯著提高,還有了識别圖像的多模态能力,微軟也宣布 GPT-4 進入必應搜尋和 Microsoft 365。

在另一方面,人們也越來越擔憂大模型對算力設施的挑戰。此前人們估計,以 2 月份的使用者數量計算,OpenAI 商用部署 ChatGPT 需要動用 3 萬塊英偉達 A100 來進行推理,這顯然不是個可以接受的數字。面對大規模應用,越來越多的人正在探索減少算力需求的方法。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

其實在深度優化,解決 AI 算力難題的方向上,已經有人做出了成效。2 月份在巴塞羅那舉行的世界移動通信大會(MWC)上,高通展示了全球首個在安卓手機上跑 AI 畫圖大模型的能力。而就在前不久,高通又宣布了最新的移動平台,第二代骁龍 7+。

現在,AI 生成模型已經可以實時地在手機上運作了,而且不是個例。

AI 生成模型,100% 跑在手機上

在 ChatGPT 之前,AI 作畫是科技領域熱度最高的名詞:通過輸入文本提示,經過幾十億圖像資料集訓練的 AI 模型就可以根據人類指令生成栩栩如生的圖像,也可以用來幫你替換、更改已有的圖像。

Stable Diffusion 是流行的開源 AI 畫圖工具,正常版本的參數量超過 10 億,其中編碼了大量語言和視覺知識,幾乎可以生成任何你能想象到的圖檔,是以也需要在雲端運作,或者采用顯存大于 6GB 的桌上型電腦 GPU 進行計算。

然而高通展示的手機跑 Stable Diffusion 絕活,直接用一台搭載骁龍 8 Gen 2 的手機就完成了,100% 本地運作,正如高通 CEO 克裡斯蒂亞諾・安蒙(Cristiano Amon)所說:「你就算打開飛行模式也照樣跑。」

高通用第二代骁龍7+,給手機晶片來了次降維打擊

生成 Stable Diffusion 的提示詞:「Super cute fluffy cat warrior in armor, photorealistic, 4K, ultra detailed, vray rendering, unreal engine.」

Stable Diffusion 并不是個單一模型,而是由多個部分和模型一起構成的系統。在經過高通 AI 全棧優化後,人們可以在輸入提示詞後的 15 秒内獲得 512 × 512 像素的圖像,完成從文本輸入到成型圖像的 20 個推理步驟,這個速度可以與雲端推理速度相當,使用者文本輸入也完全不受限制。

對于嘗試過自己調擴散模型的人來說,即使在高配置筆記本電腦上以這種方式生成圖像也需要幾分鐘時間,手機 AI 畫圖的能力着實有些吓人。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

高通這次的工作來自于自家的人工智能研究團隊高通 AI 研究院,充分利用了高通人工智能平台和軟體開發工具,包括高通 AI 引擎和高通 AI 軟體棧。

具體來說,在 Stable Diffusion 上,研究人員從 Hugging Face 上的 FP32 version 1-5 版開源模型入手,通過量化、編譯和硬體加速進行優化,進而将其塞進了手機裡。

為了将模型從 FP32 縮成 INT8,高通使用 AI 模型增效工具包 (AIMET) 的訓練後量化,這是一個 AI 研究團隊建立的技術開發工具。量化不僅可以提高性能,還可以通過讓模型在專用的 AI 計算單元上高效運作,并減少記憶體帶寬需求的方式來減少手機能耗。這些技術可用于 Stable Diffusion 中的所有元件模型,包括基于 transformer 的文本編碼器、VAE 解碼器和 UNet。

随後,研究人員使用高通 AI 引擎架構直接将神經網絡轉為可在目标硬體上高效運作的程式,其可以根據移動端 Hexagon 處理器的硬體架構和記憶體層次結構對操作進行排序實作自動優化。

高通研究人員希望通過不斷改進繼續降低延遲,提升準确性,他們還展望了未來能夠在終端側使用 Stable Diffusion 模型實作的更多應用:包括圖像編輯、圖像修複、風格轉換、超分辨率等。

能本地運作的 AIGC,或許才是真正可以大規模應用的 AIGC:雲端運作算法總會面臨延遲、帶寬和成本的挑戰。高通 CEO 克裡斯蒂亞諾・安蒙曾對外媒表示,在未來,大語言模型将能完全在智能手機中實作内容生成,無需連接配接到網際網路也能正常工作。

正如對運作 Stable Diffusion 所做的一樣,在移動端運作 AI 算法需要從上到下進行整體的優化。高通表示,為實作這一目标而進行的所有全棧研究都将融入自家的高通 AI 軟體棧。這意味着筆記本電腦、XR 眼鏡等大量裝置也能從中受益。

高通 AI 軟體棧,是一套完整的技術體系:

高通用第二代骁龍7+,給手機晶片來了次降維打擊

去年 6 月,高通宣布了旗下 AI 技術産品的統一,全新的高通 AI 軟體棧(Qualcomm AI Stack)縱向打通了應用程式、神經網絡模型、算法、軟體層和硬體的優化,在橫向實作了跨學科的合作。

對于開發人員來說,現在人們能使用 TensorFlow、PyTorch 等流行架構進行開發,隻需使用高通 AI 軟體棧,就能在不同的産品和層級之間進行模型開發和遷移,并獲得加速,實作了真正的「一次開發,到處部署」,節省大量成本和資源。

随着 AI 大模型開始轉向移動端,高通打造的智能網聯邊緣的願景正在我們的眼前加速成為現實,幾年前還被認為不可能的事情,現在正在不斷發生。

實作越級體驗

在高通的看家本領晶片方面,長期的努力最近也收獲了新的成果。

自骁龍 820 以來,高通的骁龍移動晶片就加入了高通 AI 引擎,專門負責 AI 任務處理。而在去年 11 月推出的第二代骁龍 8 上,AI 引擎的主要組成部分 Hexagon 處理器更新了微切片推理和更大的張量加速器,并首次在手機端實作 INT4 精度格式的支援,是以在 AI 推理時性能最多可以提高 4.35 倍,能效提升 60%。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

通過緊密的軟硬體協同能力,高通在配備 Hexagon 處理器的晶片上實作了業界領先的端側 AI 性能。第二代骁龍 8 上新增的微切片推理功能,能幫助 Stable Diffusion 等大型模型高效運作。此外,由于在 Stable Diffusion 中的元件模型中使用了多頭注意力,高通平台為 MobileBERT 等 Transformer 模型所做的增強可以大幅加快推理速度,在手機跑生成模型的任務上發揮了關鍵作用。

骁龍在今年新一代平台上的更新為計算攝影帶來了強大的基礎,除此之外還打開了很多 AI 應用的大門,今年的很多旗艦機已實作了實時的多語言翻譯和轉錄、視訊 AI 增強,支援更複雜的語音指令。

高通正在将這樣的能力拓展到旗艦晶片以外的系列,上周正式推出的第二代骁龍 7+ 移動平台,AI 性能相比前一代産品提升了兩倍,能效同時也提升了 40%。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

第二代骁龍 7 + 采用了與第一代骁龍 8 + 相同的架構,也是台積電 4nm 工藝,被認為是對友商同級産品的「降維打擊」。

與旗艦級 8 系列平台相比,骁龍 7 系列更加面向主流消費級産品。但在最新釋出的第二代骁龍 7+ 上,高通重新定義了一下「主流」的檔次。第二代骁龍 7+ 帶來了 CPU、GPU、AI、影像和能耗表現的全面更新。

在新一代 7 系列晶片上,多個旗艦級特性被首次下放,第二代骁龍 7 + 有了 Arm Cortex X2 超大核,整體 CPU 性能比上代提升了 50%,GPU 的性能則是上代的兩倍。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

在 3DMark 壓力測試下,第二代骁龍 7 + 的平均分數甚至穩超第一代骁龍 8,這還隻是一台工程樣機的水準。(圖檔來源:AndroidAuthority)

在 AI 方面,和第二代骁龍 8 一樣,第二代骁龍 7 + 也擁有內建的專用 AI 處理器和傳感器中樞,提供了兩倍于第一代骁龍 7 的性能,支援從活動識别到聲學場景檢測等情境的感覺用例,以及遊戲 AI 超級分辨率。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

另一個從骁龍 8 系列下放的技術是 18 位的三 Spectra ISP,其允許新一代晶片支援三重曝光計算 HDR 視訊捕捉,更強的低光攝影并大幅降低拍攝快門延遲。

通過新款晶片,我們可以體驗到高通終端側人工智能的最新科技,随手拍出 4K60 幀視訊。

就在這個月,首批采用新晶片的手機就會面世,紅米和 Realme 将會率先釋出終端。

高通用第二代骁龍7+,給手機晶片來了次降維打擊

以前,電腦和手機的性能是通過 CPU 和 GPU 的頻率和線程數來衡量的,但端側 AI 處理能力現在已經成為晶片的第三個衡量标準。「能夠在智能手機中創造如此強大的處理能力,并在不影響待機時間的情況下運作,這是隻有高通才能做到的事情」安蒙表示。

你的下一個 AI 繪圖工具,又何必是電腦?

繼續閱讀