感謝您閱讀騰訊AI Lab首篇文章,我們将在文章第一部分介紹即将開幕的CVPR、ACL和ICML等頂級AI學術會議,及它們收錄的騰訊AI Lab多篇論文,并選取其中一篇重點解讀。第二部分是公衆号内容簡介及文章預告,我們将在之後釋出的三篇文章裡對前述三大頂會的熱門研究方向和優秀文章做深度解析。
IEEE Conference on Computer Vision and Pattern Recognition IEEE國際計算機視覺與模式識别會議 7月21日 - 26日 | 美國夏威夷
CVPR是近十年來計算機視覺領域全球最有影響力、内容最全面的頂級學術會議,由全球最大的非營利性專業技術學會IEEE(電氣和電子工程師協會)主辦。2017谷歌學術名額(Google Scholar)按論文引用率排名, CVPR位列計算機視覺領域榜首。今年CVPR稽核了2620篇文章,最終收錄783篇,錄取率29%,口頭報告錄取率僅2.65%。
騰訊AI Lab計算機視覺總監劉威博士介紹到,「CVPR的口頭報告一般是當年最前沿的研究課題,在學界和工業界都影響很大,每年都集齊如斯坦福大學和谷歌等全球最知名高校和科技公司。」
論文一:Real Time Neural Style Transfer for Videos
本文用深度前向卷積神經網絡探索視訊藝術風格的快速遷移,提出了一種全新兩幀協同訓練機制,能保持視訊時域一緻性并消除閃爍跳動瑕疵,確定視訊風格遷移實時、高質、高效完成。
此論文後附詳細解析
論文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images
論文首次提出一種全尺寸、無标注、基于病理圖檔的病人生存有效預測方法WSISA,在肺癌和腦癌兩類癌症的三個不同資料庫上性能均超出基于小塊圖像方法,有力支援大資料時代的精準個性化醫療。
論文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning
針對圖像描述生成任務,SCA-CNN基于卷積網絡的多層特征來動态生成文本描述,進而模組化文本生成過程中空間及通道上的注意力模型。
論文四:Deep Self-Taught Learning for Weakly Supervised Object Localization
本文提出依靠檢測器自身不斷改進訓練樣本品質,不斷增強檢測器性能的一種全新方法,破解弱監督目标檢測問題中訓練樣本品質低的瓶頸。
論文五:Diverse Image Annotation
本文提出了一種新的自動圖像标注目标,即用少量多樣性标簽表達盡量多的圖像資訊,該目标充分利用标簽之間的語義關系,使得自動标注結果與人類标注更加接近。
論文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images
基于曼哈頓結構與對稱資訊,文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。
CVPR選中的六篇文章,我們将重點解析《視訊的實時神經風格遷移》(Real-Time Neural Style Transfer for Videos)[1]這篇頗具創新的文章。
在過去很長一段時間内,業界流行的圖像濾鏡通常隻是對全局顔色屬性的調整,比如亮度、色相、飽和度等。在2016年的CVPR,Gatys等人[2]首創性地提出将深度神經網絡應用于圖像的藝術風格遷移,使得輸入圖像能夠模仿如梵高的星空、莫奈的日出印象等任何類型的藝術風格,效果驚豔。
Gatys等人工作雖然取得了非常好的效果,但是缺點是基于優化,非常耗時;到2016 ECCV時,Johnson等人[3]提出了使用深度前向神經網絡替代優化過程,實作了實時的圖像風格遷移,修圖工具Prisma随之風靡一時。但直接将圖像風格遷移的方法應用到視訊上,卻會使得原本連貫的視訊内容在不同幀中轉化為不一緻的風格,造成視訊的閃爍跳動,嚴重影響觀感體驗。為了解決閃爍問題,Ruder等人[4]加入了對時域一緻性的考慮,提出了一種基于優化的視訊藝術濾鏡方法,但速度極慢遠遠達不到實時。

騰訊AI Lab科學家使用深度前向卷積神經網絡,探索視訊藝術風格快速遷移的可能,提出了一種全新的兩幀協同訓練機制,保持了視訊時域一緻性,消除了閃爍跳動瑕疵,同時保證視訊風格遷移能夠實時完成,兼顧了視訊風格轉換的高品質與高效率。
視訊藝術濾鏡模型如下圖所示。通過損失網絡(Loss Network)計算連續兩個輸入視訊幀之間的損失來訓練風格變換網絡(Stylizing Network)。其中空間損失(Spatial Loss)同時描述了圖像的内容損失以及風格損失;時間損失(Temporal Loss)描述了兩個風格變換後的視訊幀之間的時間一緻性。
文章相關論文 [1] Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, and Wei Liu. Real-Time Neural Style Transfer for Videos. CVPR, 2017. [2] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016. [3] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. ECCV, 2016. [4] M. Ruder, A. Dosovitskiy, and T. Brox. Artistic style transfer for videos. German Conference on Pattern Recognition, 2016.
Meetings of the Association for Computational Linguistics 國際計算機語言協會年會 7月30日 - 8月4日|加拿大溫哥華
騰訊AI Lab副主任 語音識别和深度學習專家 俞棟博士
ACL是計算語言學裡最重要的國際會議,今年是第55屆。會議涵蓋生物醫學、認知模組化與心理語言學、互動式對話系統、機器翻譯等各個領域,今年有194 篇長論文、107 篇短論文、21 個軟體示範及 21 篇主題演講。在2017谷歌學術名額(Google Scholar)按論文引用率排名, ACL是計算機語言學和自然語言處理領域最進階别國際學術年會。
騰訊AI Lab副主任俞棟認為,「自然語言的了解、表達、生成和轉換一直是自然語言處理的核心問題。近年來有很多新的解決思路和方法。今年的ACL涉及自然語言處理的各方面,尤其在語義解析、語義角色标注、基于語義和文法的自然語言生成、機器翻譯和問答系統方向上都有一些有趣的工作。」
騰訊AI Lab主任張潼介紹到,「ACL早期利用文法和規則分析自然語言,90年代後,随着以LDC(Linguistic Data Consortium)為代表的自然語言資料集建立擴充,統計自然語言方法在計算語言學裡作用越來越大并成為主流。2000年後随着網際網路高速發展及以自然語言為核心的人機互動方式興起,自然語言研究被賦予極高應用價值。」
論文一:Modeling Source Syntax for Neural Machine Translation
本文提出将句法樹轉化為句法标簽序列的輕量級方法,有效将源端句法資訊引入神經網絡翻譯系統,被證明能顯著提高翻譯效果。
論文二:Chunk-Based Bi-Scale Decoder for Neural Machine Translation
本文引入一個額外組塊神經網絡層,從組塊到詞的層次生成譯文,幫助實作神經網絡翻譯系統短語級别的模組化,實驗表明該方法在多種語言上都能顯著提高翻譯效果。
本文作者亦緻謝前任職機構
論文三:Deep Pyramid Convolutional Neural Networks for Text Categorization
文章提出了一種能有效表達文本長距離關系的複雜度詞粒度CNN。本文研究了如何加深詞粒度CNN對文本進行全局表達,并找到了一種簡單網絡結構,通過增加網絡深度提升準确度,但不過多增加計算量。實驗表明15層的DPCNN在六個情感和主題分類任務上達到了目前最佳結果。
International Conference on Machine Learning 國際機器學習大會 8月6日 - 11日|澳洲悉尼
騰訊AI Lab主任 機器學習和大資料專家 張潼博士
機器學習是人工智能的核心技術,而ICML是機器學習最重要的兩個會議之一(另一個是NIPS)。ICML源于1980年在卡内基梅隆大學舉辦的機器學習研讨會,現由國際機器學習學會(IMLS)主辦。2017谷歌學術名額以「機器學習」關鍵詞排名,ICML位列第一。
騰訊AI Lab主任張潼博士介紹到,「很多經典論文和算法,如CRF,都是在ICML上首次提出的,這個會議涉及機器學習相關的所有研究,包括近年非常熱門的深度學習、優化算法、統計模型和圖模型等。在早期,ICML更注重實驗和應用,而NIPS更注重模型和算法,但近年來兩個會議有些趨同。」
論文一:Scaling Up Sparse Support Vector Machines by Simultaneous Feature and Sample Reduction
本文提出了第一個能在模型訓練開始前,同時檢測和去除稀疏支援向量機中不活躍樣本和特征的篩選算法,并從理論和實驗中證明其能不損失任何精度地把模型訓練效率提升數個量級。
論文二:GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization
本文提出了求解多塊非光滑複合凸優化問題的算子分裂新算法,該算法采用Gauss-Seidel疊代以及算子分裂的技巧處理不可分的非光滑正則項,并以實驗證明了該算法的有效性。
論文三:Efficient Distributed Learning with Sparsity
本文提出了一個高維大資料中能更有效學習稀疏線性模型的分布式算法。在單個機器訓練樣本足夠多時,該算法隻需一輪通信就能學習出統計最優誤差模型;即使單個機器樣本不足,學習統計最優誤差模型的通信代價隻随機器數量對數曲線上升,而不依賴于其他條件數。
論文四:Projection-free Distributed Online Learning in Networks
本文提出了去中心化的分布式線上條件梯度算法。該算法将條件梯度的免投影特性推廣到分布式線上場景,解決了傳統算法需要複雜的投影操作問題,能高效處理去中心化的流式資料。
此外,我們還受邀參加以下三個會議:8月7日-11日東京舉辦的SIGIR(國際計算機協會資訊檢索大會),入選論文3篇。8月19日-25日墨爾本舉辦的IJCAI(國際人工智能聯合會議),入選論文6篇。及9月7日-11日哥本哈根舉辦的EMNLP(自然語言處理實證方法會議),入選論文7篇。歡迎現場交流。
騰訊AI Lab于2016年四月成立,專注于機器學習、計算機視覺、語音識别和自然語言了解四個領域「基礎研究」,及内容、遊戲、社交和平台工具型四大AI「應用探索」,提升AI的決策、了解及創造力,向「Make AI Everywhere」的願景邁進。
騰訊AI Lab主任及第一負責人是機器學習和大資料專家張潼博士(詳情可點連結),副主任及西雅圖實驗室負責人是語音識别及深度學習專家俞棟博士。目前團隊有50餘位AI科學家及200多位應用工程師。
一年多以來,我們主要通過行業會議及學術刊物分享研究成果。今天,我們正式入駐微信,聚焦中國AI前沿「思考」、實驗室「動态」與學術産業「研究」三塊内容,用專業嚴謹且平實易懂的語言,希望在更廣範圍内,連接配接不同層次的從業者,以開放、深入和持續的交流,共同構想AI未來。
機器與機器間的連接配接,能讓已知資訊随時随地共享。而人與人的連接配接,則讓未知碰撞,産生更璀璨的智慧火光。讓我們借此火光前行,共創「讓AI無處不在」的未來。
接下來釋出的三篇文章中,我們将邀請參會的騰訊AI Lab科學家,從CVPR、ACL及ICML現場發回第一手獨家見聞,深度解析會議熱門研究方向與優質文章。敬請關注!
文章來源:騰訊AI實驗室