天天看點

10億參數模型進手機!15秒即可出圖,飛行模式也能用

作者:量子位

蕭箫 發自 凹非寺

量子位 | 公衆号 QbitAI

純靠手機跑Stable Diffusion,出一張圖需要多長時間?

10億參數模型進手機!15秒即可出圖,飛行模式也能用

答案是15秒以内。還是開飛行模式那種,完全不需要借助雲伺服器的算力!

10億參數模型進手機!15秒即可出圖,飛行模式也能用

不僅能生成動畫版铠甲貓貓戰士,真人版《龍珠》cosplay大合照,也能迅速想象出來:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

△圖源油管@TK Bay

當然,畫個中國風兔型剪紙圖像,也完全沒問題:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

△圖源油管@TK Bay

此前,雖然已經有網友做出了一些能在手機上運作的Stable Diffusion項目,不過實際運作會發現,這些項目要麼生成圖檔的時間長、記憶體占用高、耗電量大,要麼生成的圖像風格比較單一。

15秒内依靠手機算力出圖,風格還是多變的那種,究竟是怎麼做到的?

手機15秒跑億級大模型

這個手機版15秒跑Stable Diffusion項目,是高通基于自己的手機晶片做的一個“示範”APP。

在前不久的MWC 2023上,高通現場展示了這個APP的生成效果,有不少線下參會的網友也體驗了一波,例如嘗試用它生成一群寶可夢:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

△圖源油管@NewGadgets.de

疊代步數達到了20步,可以生成分辨率512×512的圖像。

據高通介紹,之是以相比其他項目,這個版本的Stable Diffusion能在手機上快速運作,是因為團隊專門基于移動端AI軟硬體技術,對開源模型進行了優化。

其中,Stable Diffusion模型選用的是在Hugging Face上開源的FP32 version1-5版本。

10億參數模型進手機!15秒即可出圖,飛行模式也能用

為了達到15秒“快速出圖”的效果,研究人員從硬體、架構和AI壓縮算法上入手,在確定出圖效果的同時,對模型大小和端側運作進行适配優化:

  • 硬體:第二代骁龍8移動平台
  • 架構:高通AI引擎Direct
  • AI模型壓縮工具:AI模型增效工具包AIMET
10億參數模型進手機!15秒即可出圖,飛行模式也能用

首先,基于高通AI模型增效工具包AIMET,對訓練後的Stable Diffusion模型進行量化。AIMET中包括一些高通之前的量化研究算法如AdaRound等,能将模型精度從FP32壓縮到INT8,降低功耗的同時確定模型運作效果;

接下來,團隊基于高通的AI引擎Direct架構,對這一模型進行軟硬體協同優化,讓它能更好地運作在AI計算專用的Hexagon處理器上,提升性能的同時最小化記憶體溢出;

最後,高通也采用了最新釋出的第二代骁龍8移動平台,支援一項名叫微切片推理(Micro Inferencing)的技術,能通過在時間軸上對網絡層進行切分,進而讓處理器始終處于高效運轉狀态,提升效率。

不止是Stable Diffusion,其他生成式AI算法同樣如此。

高通還展示了相比其他GPU和CPU,Hexagon處理器在移動端跑人臉生成算法的效率:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

至于搭載Hexagon處理器的第二代骁龍8移動平台,跑超分辨率(RDN)、背景虛化(DeeplabV3+)、人臉識别(FaceNet)和自然語言處理(MobileBERT)等算法上,性能同樣高出同行3~4倍:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

而這也正是高通一直強調的“端側AI算力”性能。

據高通介紹,在這波生成式AI浪潮下,相比單純借助雲端算力處理AI模型,端側的計算能力也同樣能被加以利用。

端側算力加速生成式AI落地

随着這波大模型爆火,雲端計算已經成為不少人受關注的技術。

然而,作為AI技術最直接的落地領域之一,同樣能提供算力的移動端,是否同樣會對這波生成式AI浪潮造成影響?

對此,高通技術公司産品管理進階副總裁兼AI負責人Ziad Asghar分享了他的看法。

Ziad Asghar認為,讓大模型這類生成式AI純粹在雲端運作,存在幾個問題。

一方面,像網絡搜尋這樣的算法,生成式AI的查詢效果雖然比傳統方法更好,但單次查詢成本也會更高。

随着使用者數量的不斷增加,僅僅依靠雲端算力,可能無法支援越來越多的生成式AI應用同時運作:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

另一方面,雖然雲端計算能力更大,但不少AI模型應用到端側時,在推理時還會面對處理使用者資料等涉及隐私安全方面的問題。

就拿個人搜尋來說,要想使用AI算法更智能地搜尋手機上的資料、同時又不上傳到雲端處理,那麼模型最終就得部署到端側,而非将使用者資料“聯網”上傳。

是以,要想讓生成式AI規模化落地,移動端也要從計算方式和應用途徑上作出對應的準備。

而這也是高通提出混合AI概念的原因,将一些AI模型放到終端側進行處理。

10億參數模型進手機!15秒即可出圖,飛行模式也能用

Ziad Asghar還表示,随着移動端AI處理能力的不斷提升,未來幾個月内,我們就能看到100億參數的大模型在移動端運作:

10億參數模型進手機!15秒即可出圖,飛行模式也能用

到那個時候,或許手機上的AI助手就真能做到“專人定制”了。

10億參數模型進手機!15秒即可出圖,飛行模式也能用

參考連結:

[1]https://mp.weixin.qq.com/s/Llqc6Elz1xY1ukN77EJFxw

[2]https://www.youtube.com/shorts/Dd8bfblL9H0

[3]https://www.youtube.com/watch?v=-pnHnlgcPfM

[4]https://www.youtube.com/watch?v=VJ_MBN2DavM

[5]https://mp.weixin.qq.com/s/J1RFNa0F1wpOvgqUxKc51w

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀