天天看點

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

自 2007 年啟動首個 AI 項目之後,高通(Qualcomm)在人工智能研發方面取得了很多進展。2018 年 5 月, 高通

成立 Qualcomm AI Research,進一步強化整合公司内部對前沿人工智能研究。現在,高通不僅是一家移動通信公司,更是人工智能領域的重要玩家。

那麼,在人工智能基礎研發方面,高通做了哪些事情呢?高通技術工程進階總監、AI 研發負責人侯紀磊在近期舉行的高通人工智能開放日上對此進行了介紹。

侯紀磊博士強調,針對 AI 和深度學習應用,Qualcomm AI Research 更加着重打造平台式創新,推動人工智能在行業實作高效、規模化的應用,這主要展現在三個方面:能效、個性化和高效學習。

本文主要介紹了高通在能效和高效學習方面的研究進展,其中高效學習主要涉及結合實體學和深度學習建立的新型 CNN 模型——規範等變卷積神經網絡(G-CNN)。

能效(power efficiency)

能效,即使應用能夠實時、低功耗、流暢地進行推理。随着神經網絡規模越來越大,它們所需的記憶體、計算量和能源也越來越多。如何提高能效,尤其是在終端側實作高能效是高通一直以來的研究方向。

侯紀磊博士介紹道,高通通過自動化技術,利用 AI 技術來優化 AI 模型 。比如将谷歌 AutoML 的概念引入壓縮、量化和編譯場景,結合硬體感覺(hardware-aware)實作高能效。

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

高通在高能效 AI 計算方面的研究主要圍繞四個方向展開:神經網絡壓縮、神經網絡量化、核心優化和記憶體計算。

記憶體計算:有潛力、重要的 AI 加速計算發展方向

針對記憶體和計算核心之間資料傳輸時所産生的能耗和計算成本,高通在進行一項革命性的試驗研究:把記憶體單元與計算單元重疊,在記憶體單元中引入計算功能,将傳統的計算架構進行重要的轉變,進而大幅提升能效。

侯紀磊博士在演講中強調,「記憶體計算」是未來有潛力、重要的AI加速計算發展方向。

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽
廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

那麼,記憶體計算是如何實作的呢?

「存儲單元實際上都是通過半導體二極管來實作的。簡單來說,存儲單元(memory cell)是記憶體最基本的存儲機關。一個常見的存儲單元裡面有 6 個半導體,也就是我們說的 6T 存儲單元。現在為了做記憶體計算,我們可以在 6T 存儲單元原有的 6 個半導體之外再額外增加半導體,通過新加半導體來實作乘法或者是累積(accumulation)。不管是卷積還是其他模型,講到最後其本質就是乘法和加法,乘法在某種意義上也可以用加法來完成。如果在存儲單元中可以增加新的半導體,那麼很多運算功能就可以在存儲單元裡實作,這相當于把原來的存儲單元從純粹的存儲功能演進成既具有存儲又具有運算的功能。而這需要重新設計硬體。」侯紀磊博士介紹道。

神經網絡壓縮和量化

神經網絡壓縮和量化是降低計算時間和能耗的重要手段。

據介紹,高通目前考慮的壓縮方法包括

張量分解

和通道簡化。高通技術副總裁、全球知名深度學習學者韋靈思教授(Max Welling)在通道簡化方面創造性地引入了貝葉斯方法,即貝葉斯通道剪枝,在壓縮領域實作了很好的效果。高通将兩種方法結合起來,組合使用貝葉斯壓縮和空間奇異值分解(SVD),相比于基線模型,該方法實作了 3 倍的壓縮比,同時準确率降低小于 1%。

而模型量化有兩個方向:一個是對模型進行重新訓練的量化,另一個是不需要對模型重新訓練的量化。侯紀磊博士表示高通在兩個方向上都進行了相關研究。

關于後者,高通已經取得了一定成果。将模型從 32 位浮點到 8 位定點量化後,可實作幾乎相同的準确率,每瓦特性能提升超過四倍。在使用 MobileNetV2 系列網絡進行分類或分割之類的任務時,如果隻是做一個「所見即所得」的簡單量化,量化後的模型準确率會很差;但在不需要重新訓練的情況下通過 data free quantization(DFQ)的方式進行量化,量化後的模型可以取得非常好的效果,達到和32位浮點幾乎相同的準确率。這将為生态鍊中廣泛客戶的量化需求提供強有力的支援。

而關于需要重新訓練的模型,侯紀磊博士表示,高通已有兩篇相關論文 [4, 5] 被 ICLR 2019 接收,其中 [4] 介紹了在訓練階段進行模型量化的新方法,[5] 使用的方法是對梯度反向傳播做優化。

核心優化

在核心優化方面,侯紀磊博士介紹了一個新的概念—— AI 優化代理(AI Agent):取出神經網絡的某一層(如卷積層),要想使它在硬體層面上獲得最好的時延名額,需要依賴 data locality,使資料盡量在計算單元本地反複使用,以降低功耗和計算成本。為了達到 data locality 的目标,則需要通過對圖塊大小重排序,展開并行化、向量化,從排列組合的角度找到最優的組合。

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

針對此,高通提出了面向自動化硬體編譯的強化學習和貝葉斯優化方法,可以應對數十億種潛在組合,從中找出相對最優解。

貝葉斯優化是一種近似逼近的方法。如果說我們不知道某個函數具體是什麼,那麼可能就會使用一些已知的先驗知識逼近或猜測該函數是什麼,這正是後驗機率的核心思想。貝葉斯優化可以簡單了解為黑箱的資料驅動技術,在搜尋空間很大且每個樣本的效果評估成本很高的情況下,貝葉斯優化是非常高效的方法,因為它的樣本效率優于強化學習。

侯紀磊博士表示,高通和阿姆斯特丹大學共同建立的戰略合作實驗室 QUVA Lab 在貝葉斯優化上有很好的技術積累,發表了很多重要論文。高通把他們的技術引進公司内部放到核心優化這一問題上,并開展進一步的研發工作。

「總體來看,高通的 AI 研發有兩個重要的特點。第一,我們更側重于與硬體相關度更高的AI或機器學習。第二,我們非常關注終端側的用例,當然現在我們在雲端也有發力。我們正通過 AI 和資料驅動的方式,讓骁龍計算平台以及各個子系統有更好的性能、能效和使用者體驗,這是我們非常重要的方向。」

實體學和深度學習的碰撞

目前的深度學習技術能夠很好地分析 2D 資料,但是我們如何教會機器了解曲面物體的圖像資料呢?尤其是在終端側執行資料處理過程的情況。

高通技術副總裁韋靈思教授和另一位高通 AI 研究科學家 Taco Cohen 将廣義相對論和量子場論的數學原理應用于深度學習,提出了一種新型卷積神經網絡:規範等變卷積神經網絡(Gauge Equivariant CNN,G-CNN)。該模型可接受幾乎所有曲面物體資料,并将新型卷積應用其中。

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

侯紀磊博士詳細地介紹了 G-CNN 的原理和提出過程:

CNN 的平移不變性(shift invariance)使得它可以處理目标平移後的圖像,輸出結果與平移之前一緻。比如一個小貓小狗出現在圖像上,不管它出現在圖像的任意位置,CNN 模型都能夠把它抓取并識别出來。然而 CNN 缺乏旋轉不變性(rotation invariance),即如果我們将小貓小狗的圖像旋轉一個角度,CNN 模型是無法有效識别出來的。

盡管 CNN 本身無法做到旋轉圖像的識别,但研究者可以通過資料增強方法來做到這一點。比如,在模型訓練過程中将圖像旋轉很多角度,使目标映射時能夠将旋轉後的圖像映射到原來的圖像上面。但這個方法存在兩個問題:一,需要大量的資料增強,導緻訓練效率非常低;第二,即使做了資料增強,但資料增強的範圍是有限的,是以還存在着很多角度的死角。

針對旋轉不變性問題,高通 AI研發團隊的頂級學者——韋靈思教授以及 Taco Cohen 提出了一系列解決方法。

  • 第一步:在平面上引進一個初步泛化的 CNN——即組等變 CNN(Group Equivariant CNN)[3],來解決平面上的二維旋轉問題。
  • 第二步:在二維旋轉不變性解決以後,韋靈思教授和 Taco 又提出了球面 CNN(Spherical CNN)[1],用于解決三維的旋轉不變性問題,比如說在球面性物體或者三維 CT 圖像上的旋轉問題。相關研究《 Spherical CNNs 》獲得了機器學習頂會 ICLR 2018 的最佳論文獎。
  • 第三步:球面 CNN 的旋轉不變性必須具備在給定空間内的整體對稱性(global symmetry),這對應于實體學中通常所指的時空不變性。是以韋靈思教授和 Taco 緊接着提出針對局域對稱性(local symmetry)的 G-CNN(規範等變 CNN,Gauge Equivariant CNN)[2]。

那麼局域對稱性跟整體對稱性有什麼不同呢?

簡單地說,19 世紀、20 世紀的實體學演進,從一定程度上可以了解為是從整體對稱性到局域對稱性的變化。狹義相對論可以了解成在整體對稱性架構之下的理論,例如電場跟磁場的等價性是時空不變的。但到了廣義相對論的時候,時空不變性已經不适用了,時空是彎曲的,很多時候對稱性隻能是在局域上的一種屬性。将這樣的對應關系放在神經網絡的場景裡,如果一個三維物體是球狀的,那麼它就具備了球狀旋轉的整體對稱性,這個時候球面 CNN 模型是可行的;一旦這個三維物體不具備這種整體對稱性,而是一個尼曼三維任意曲面的時候,我們就必須通過規範等變 CNN 的方法來實作局部的旋轉等變性。

與球面 CNN 模型相比,規範等變 CNN 模型的最大優勢在于,它擺脫了前一種模型對于整體對稱性的假設,隻要在局域上近似地具備對稱性,它就可以将廣義相對論規範場論(gauge theory)的數學工具及相應結論借用到這裡來。

「需要強調的是,規範等變 CNN 為幾何深度學習(Geometric DL)這一重要方向提供了合适的理論架構。」侯紀磊博士表示。

廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽
廣義相對論與深度學習能夠碰撞出什麼火花?高通AI Research最新研發成果一覽

在流形 M 上定義卷積運算,使其對局域規範變換保持不變性 [2]。

基礎研究、應用研究兩手抓

Qualcomm AI Research 成立将近一年。據了解,其研發方向從平台式創新,即用 AI 的方法使 AI 更有效,轉向了全方位、全頻譜的 AI 研究,在基礎研究跟應用研究之間進行很好的平衡。是以高通在基礎研究上有了更多的投入,比如貝葉斯深度學習、幾何深度學習(G-CNN)、深度生成模型,以及一些新方向(無監督學習、圖 CNN、貝葉斯優化等)。

而在應用研究方面,高通的 AI 技術已經應用于手機、物聯網、汽車行業等多個領域。以

自動駕駛

為例,侯紀磊博士介紹了 AI 技術與自動駕駛具體産品線之間的結合。他表示從技術角度來看,目前 L2、L3、L4 級别的項目側重點有所不同。

  • L2 級别:無論是高通正在做的工作還是從合作方的角度,L2 項目更多處于成本優化階段,大家都希望能夠在高成本效益的平台上承載更多運算功能。
  • L3 級别:高通目前做了大量的原型系統工作。在今年的 CES 大會上高通公布了這方面的新動态,高通開發了原型車系統,并通過路測進一步優化技術,原型車在路上獲得的資料可以幫助高通在晶片研發層面定義具體的規格參數,比如計算能力、與攝像頭和傳感器對接需要什麼樣的界面等等。
  • 從 L4、L5 的角度來看,高通認為将來如果要純粹依靠汽車自身的被動傳感來實作任何時間、任何地點的自動駕駛,在很多時候會有很多極端情況是難以支援的。是以,高通認為 C-V2X 将是一項重要的技術。跟車載攝像頭相比,C-V2X 在一定程度上可以認為是一種主動傳感,通過車和車之間的主動通信,即使其他車輛在視距之外,或者在天氣非常槽糕的情況下,司機依然可以通過 C-V2X 技術來獲知其他車輛處在周圍的什麼位置。從安全性的角度來看,L4、L5 要做到任何地方、任何時間都能夠安全穩定的自動駕駛,C-V2X 是一項非常重要的技術。侯紀磊博士表示,這是高通一直在業界推動的理念,也是從技術和産品路線上一直推動的重要方向。

而關于自動駕駛領域讨論已久的

雷射雷達

問題,侯紀磊博士表示:「不同晶片廠商的定位可能不太一樣。對于主流廠商來說,一套從計算到傳感器都包含在内的模組,他們在每一輛車上能夠接受的成本範圍可能是在人民币 2000—3000 元左右,這一成本範圍基本已經把雷射雷達排除在外了。這種情況下,要做到 L3 級,無論是高速自動駕駛或者低速自動停車,我相信做好攝像頭跟雷達之間的融合可能會是更加直接的方式,這也是高通從技術演進路線來看更加着重投入的一個方向。」

目前,高通已經與阿姆斯特丹大學開展戰略合作,共建了 QUVA 實驗室,專注于發展面向移動領域和計算機視覺的先進機器學習技術。侯紀磊博士表示,Qualcomm AI Research 将不斷加強與大學之間的合作,将高通與阿姆斯特丹大學的戰略合作模式拓展到全球其它國家和地區。

參考文獻

[1] Cohen, T. S., Geiger, M., Koehler, J., and Welling, M. Spherical CNNs. In ICLR, 2018.

[2] Cohen, T. S., Weiler, M., Kicanaoglu, B., and Welling, M. Gauge Equivariant Convolutional Networks and the Icosahedral CNN. In ICML 2019.

[3] Cohen, T. S. and Welling, M. Group equivariant convolutional networks. In ICML, 2016.

[4] Louizos, C., Reisser, M., Blankevoort, T., Gavves E., and Welling, M. Relaxed Quantization for Discretized Neural Networks. In ICLR, 2019.

[5] Yin, P., Lyu, J., Zhang, S., Osher, S., Qi, Y., and Xin, J. Understanding Straight-Through Estimator in Training Activation Quantized Neural Nets. In ICLR, 2019.

本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀