電影及視訊遊戲行業的新興及發展,無疑是計算機圖像研究領域的一劑催化劑。siggraph asia 2016 的學術主席,倫敦學院教授 niloy mitra 在開幕式上表示,「計算機圖像技術正在對實體産業産生影響,比如為産品視覺化及圖像優化提供工具。這項技術源于視覺效果及遊戲産業的計算機圖像需求,并為數學、實體、藝術及計算機科學提供一座融合的橋梁。」
而作為 a 類會議的 siggnraph asia 2016,又怎能錯過這一領域的學術交流及分享?今天早上的主題分享為「geometric deep learning」(幾何深度學習),主要介紹了目前在深度學習技術下目前的 3d 圖像分析研究進展,并圍繞(非)歐幾裡得資料進行探讨。
在介紹中,主辦方特地提到這個課程是為零基礎的聽衆而準備的,雷鋒網(公衆号:雷鋒網)整理了兩個普适性及認知度較強的演講與大家分享。
意大利大學計算機科學教授 michael m. bronstein 是今天上台的第一位嘉賓,雷鋒網了解到,bronstein 的上一次公開分享是去年九月份的 icip,而就在本次的學術課程上,他分享了上個月剛送出在 arxiv 的論文《幾何深度學習:超越歐幾裡德資料》,主要涉及的是計算機視覺及模式識别的分享。
本文除了這位大神外,還有 facebook 前人工智能團隊博士後成員 joan bruna 和現人工智能負責人 yann lecun 的加持,難怪成為了本次學術分享打頭陣的研究論文。
bronstein 認為,許多信号處理問題涉及其基礎結構是非歐幾裡得的資料,但可以通過模組化來實作。使用最近鄰圖在高維歐幾裡德空間中作為點給出的模組化資料是資料科學中日益流行的趨勢,允許從業者通路資料的内在結構。而鑒于幾何資料的複雜性和非常大的資料集的可用性(在社交網絡的情況下,數十億級),機器學習技術就成為了(幾乎)唯一可取的方法,因為深度學習能夠用于解決具有基礎歐幾裡得結構的大資料集的問題。
例如:
在社交網絡中,使用者的特征可以被模組化為社交圖的信号。 在傳感器網絡中,圖像模型由分布式互連傳感器構成,其讀數則被模組化為頂點上的時間信号。 在遺傳學中,基因表達資料被模組化為在調節網絡上定義的信号。 在神經科學中,圖形模型用于表示大腦的解剖和功能結構。
bronstein 的分享稍顯拘謹和嚴肅,而随後上台分享的 usc 視覺及圖像實驗室兼南加州大學的助理教授黎灏則以一種輕松诙諧的方式讓大家了解他的研究進展。染着一頭黃毛,留着朋克發型的黎灏是德國出生的台灣人,憑借他對 3d 圖像技術所做的貢獻,2013 年當選 mit tr 35 創新者。
他長這樣:
來自台灣的通路學者程昱林(音譯,yulen chung)向雷鋒網提起黎灏的時候帶着一臉自豪和崇敬,他表示在整個早上的幾位講者中,對黎灏的演講印象最為深刻。「他的研究可以說代表了深度學習在視覺圖像上的應用成果,雖然還處于早期階段,但如果資料足夠多的話,相信這對整個動畫界有着巨大影響。」
在會上,黎灏首先展示了他理想中的圖像處理狀态:
隻憑借一張 matt furniss 、川普、希拉裡、或是馬雲爸爸的正面照片,計算機就能夠「腦補」出他們頭部的 3d 模型(甚至還有美顔功能,能把皺紋都給抹掉)。
自然這一切都要通過人工智能才能實作,基于大資料的深度學習無疑為研究者們提供了絕佳的素材。
黎灏随即在會上邀請 bronstein 上台做了個「換頭」小實驗。通過攝像頭拍攝正面視訊,計算機能夠在短短幾秒鐘内生成 bronstein 的 3d 頭像,并且在黎灏回到台前對着視訊演講時,大螢幕上依然呈現的是 bronstein 的頭像,但動作卻與黎灏的進行同步。
一個小小的示範很快讓在場的觀衆們了解到臉部替換(face replacement)的含義,實際上這與最近非常流行的人臉識别自拍軟體的原理是一緻的,主要都是通過「識别人臉——判斷五官位置——添加與五官比對的素材——完成『換頭』/『美顔』」來實作,
在鏡頭前,一名研究人員對着鏡頭做出戴眼鏡、轉頭、喝水、抓耳撓腮等動作,随後計算機對人臉進行識别和判斷,剔除掉遮擋住面部的無關參數(眼睛、杯子、手臂等),最後把設計好的一些素材添加到原有圖檔上。
不過,目前用于娛樂的自拍軟體不過是小打小鬧,黎灏的研究已經将使用範圍擴大到全頭,并延展到全身。而為了讓機器學習實作更為準确的面部識别,除了将參數點細化之外,增加「幹擾項」也同樣是研究所需要的。日常的訓練素材包括了正面清晰的面部照片外,還有用各種顔色的方框遮擋住面部局部五官的一些照片,此外,因為手和人臉的膚色非常接近,且離人臉最近,是以研究團隊也提供了大量各類手臂的局部照片,并把它們「p」到人臉上,供計算機進行甄别和學習。
除了上述方式外,以前其他研究團隊也做過大量實驗,提供了更為細化的部位特寫照片(如靜态的嘴巴圖檔或動态的說話視訊)。
接下來,黎灏介紹了目前兩種主流的 3d 對象分類方式。
一為普林斯頓大學研究的基于三維資料的「立體栅格化」(volumetric representation),将對象的 3d 資料表示為 30*30*30 的立體資料,并在上面直接進行卷積網絡的訓練。 二為馬薩諸塞大學在 2015 iccv 發表的「多重視角下的神經網絡建構 3d 圖像識别」,該方法主要從多個角度對進行二維圖像拍攝作為訓練資料,随後進行卷積訓練。
黎灏表示,這兩種圖像訓練方式的結果不盡相同,相對而言第二種方式的處理度稍好一些,能達到 90.1%,而第一種為 77.3%。但他表示,在同一像素級别的前提下,第一種方式的分類準确度能達到 86% 以上,而後者低了近 10 個百分點。
是以黎灏團隊參考的是第二種模式,采用 kinect 傳感收集資料,提升全身的 3d 影像在模組化方式上的優化,并已實作動态實時傳輸的效果。
除此之外,目前學術圈已經有不少基于的人體 3d 模組化,不過黎灏的研究實作了身着衣服也能實作模組化。由于衣服對計算機識别的幹擾性較大,如何排除這些可能存在的因素也是一個突破性的進展。
不過它還存在兩個缺點:
首先是硬體限制。對資料進行計算誠然需要高精度的 gpu 加速,如何在處理速度和品質上實作平衡,目前團隊還沒有實作這一點。 其次是暫時團隊隻能處理人體模組化,尚未将識别領域延展到其他物體上。
在會後,程昱林向雷鋒網表示,這一局限性可能會讓動畫産業的應用受到局限,因為隻能捕捉人體圖像的話,範圍還是窄了一些。但他也表示,「這算得上是一個很不錯的突破了,至少可以穿着衣服實作模組化,在動畫造型就有了更多的可能性。」
深度學習在計算機圖像研究領域已經有了如此多突破,相信很快能夠真正實作産業化的應用。雷鋒網記者今天在采訪 polygon picture 制作人,本次計算機動畫節的聯合主席 shuzo john shiota 時,他也談到了産學研的結合同樣有利于動畫效果的提高,「siggraph 與計算機動畫節的聯系非常緊密,可以說後者是最受歡迎和關注的内容之一。本次的大賽評選可以說是科技在藝術界的一個結合,而 polygon 可能會在未來尋求感興趣的相關研究所團隊一起合作,讓技術能夠順利落地。」
第一天的 siggraph asia 2016 的相關介紹還有很多,雷鋒網所列舉的學術領域隻是一管窺豹。更多詳細報道還請關注 siggraph asia 2016 專題,雷鋒網将持續帶來前線報道。
論文下載下傳位址:
<a href="https://arxiv.org/abs/1611.08097" target="_blank"></a>
geometric deep learning: going beyond euclidean data:
real-time facial segmentation and performance capture from rgb input:
<a href="https://arxiv.org/abs/1604.02647" target="_blank">https://arxiv.org/abs/1604.02647</a>
本文作者:奕欣