天天看點

CVPR 2019 | 百度17篇論文入選,AI巨頭都在關注什麼?(附論文下載下傳)

授權自AI科技大學營(ID:rgznai100)

文章來源:微信公衆号 資料派THU

本文整理了百度入選CVPR的17篇論文的内容及應用場景。

計算機視覺和模式識别大會CVPR 2019即将于6月在美國長灘召開,作為人工智能領域計算機視覺方向的重要學術會議,CVPR每年都會吸引全球最頂尖的學術機構和公司的研究人員投稿。

CVPR官網顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇,錄取率約為25%。據了解,去年的CVPR 2018共有979篇論文被主會收錄,錄用率約為29%。相比2018,今年的競争更加激烈。

今年百度公司有17篇論文被CVPR接收,内容涵蓋了語義分割、網絡剪枝、ReID、GAN等諸多方向,而且很多技術的落地場景都涉及無人駕駛。

1月,我們曾為大家介紹百度被AAAI 2019接收的15篇論文。現在我們就來帶大家看下百度入選CVPR 2019的17篇論文。

公衆号背景回複關鍵詞“百度”,擷取本文所有論文

1)Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation

論文作者:Yawei Luo; Liang Zheng; Tao Guan; Junqing Yu; Yi Yang

論文介紹:在虛拟圖像集(源域)上訓練出的語義分割網絡,往往在真實圖像集(目标域)上表現不佳。網絡分割性能下降是由于兩個域間存在較大差異,而深度模型泛化能力不足。傳統方法嘗試通過全局對齊源域和目标域間特征分布的來解決此問題,而該類方法往往忽略了特征間的局部語義一緻性。本文首次結合了聯合訓練和對抗訓練來處理此問題。不同于傳統方法,本文根據每一個特征的語義對齊程度,自适應的調整特征對齊的力度。該方法解決了傳統方法中特征語義不一緻問題和負遷移的問題。實驗結果證明我們的方法能大大提高網絡在目标域圖像上的分割精度。

應用場景:自動駕駛。本方法将電腦合成圖像訓練出的網絡直接泛化到現實資料集上,大大減少了自動駕駛領域中街景資料采集和資料标注的工作量。

論文位址:

https://arxiv.org/abs/1809.09478

2)Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration

論文作者:Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, Yi Yang

論文介紹:在本文中,我們分析了關于網絡剪枝的“小範數-低重要性”的标準。以前的工作利用“小範數-低重要性”的标準來修剪在卷積神經網絡中具有較小範數值的濾波器,但出它的有效性取決于兩個并不總是滿足的要求:

濾波器的範數的标準差應該很大;

濾波器的最小範數應該很小。

為了解決這個問題,我們提出了一種新的濾波器修剪方法,即通過"幾何平均數"進行濾波器剪枝,以便在不考慮這兩個要求的情況下對模型進行壓縮,我們稱之為FPGM。與之前的方法不同,FPGM通過去掉備援的濾波器來壓縮CNN模型,而不是去掉那些範數小的過濾器。我們在圖像分類任務上的兩個資料集上,驗證了FPGM的有用性。在Cifar-10資料集上,FPGM在ResNet-110上的計算量降低了52%以上,相對精确度提高了2.69%。此外,在ILSVRC-2012資料集上,FPGM還在ResNet-101上減少了超過42%的計算量。

應用場景:本文提出的方法能夠有效提升神經網絡壓縮率。可以将壓縮後的網絡部署到便攜式裝置,比如手機、錄影機等,加快處理速度。

https://arxiv.org/abs/1811.00250

GItHub位址:

https://github.com/he-y/filter-pruning-geometric-median

3)Detailed Human Shape Estimation from a Single Image by Hierarchical Mesh Deformation

論文作者:Hao Zhu; Xinxin Zuo; Sen Wang; Xun Cao; Ruigang Yang

論文介紹:本文提出了一個新的架構,可以根據單個圖像恢複詳細的人體形狀。由于諸如人體形狀、身體姿勢和視角的變化等因素,因而這是一項具有挑戰性的任務。現有方法通常嘗試使用缺少表面細節的基于參數的模闆來恢複人體形狀。是以,所得到的身體形狀似乎沒有衣服。

在本文中,我們提出了一種新穎的基于學習的架構,它結合了參數模型的魯棒性和自由3D變形的靈活性。我們使用深度神經網絡在層次網格變形(HMD)架構中利用身體關節、輪廓和每像素着色資訊的限制來細化3D形狀。我們能夠恢複除皮膚模型之外的詳細人體形狀。實驗證明,我們的方法優于先前的最先進方法,在2D IoU數和3D度量距離方面實作了更好的準确性。

https://arxiv.org/abs/1904.10506v1 https://github.com/zhuhao-nju/hmd.git

4)GA-Net: Guided Aggregation Net for End-to-end Stereo Matching

論文作者:Feihu Zhang; Victor Adrian Prisacariu; Yang Ruigang; Philip Torr

論文介紹:在立體比對任務中,為了準确估計差異,比對成本聚合在傳統方法和深度神經網絡模型中都是至關重要的。我們提出了兩個新的神經網絡層,分别用于捕獲局部和整個圖像的成本相關性。第一個是半全局聚合層,它是半全局比對的可微近似;第二個是局部引導聚合層,它遵循傳統的成本過濾政策來細化薄結構。這兩層可以用來代替廣泛使用的3D卷積層,該層由于具有立方計算/存儲器複雜性而計算成本高且消耗存儲器。在實驗中,我們表明,具有雙層引導聚合塊的網絡很輕易地超過了具有19個3D卷積層的最先進的GC-Net。我們還訓練了深度引導聚合網絡(GA-Net),它比場景流資料集和KITTI基準測試中的最新方法具有更好的準确性。

https://arxiv.org/abs/1904.06587

GitHub位址:

https://github.com/feihuzhang/GANet

5)Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification

論文作者:Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang

論文介紹:本論文旨在解決行人再識别中的跨資料集問題:利用有标注的源資料集和無标注的目标資料集學習一個在目标資料集具有很好的魯棒性的模型。主流的研究方法主要通過降低源域和目标域之間的特征分布的差異。然而,這些方法忽略了目标域的域間變化,這些變化中包含了影響目标域測試性能的重要因素。

在本文的工作中,我們全面的探讨了目标域中的域間變化,并基于三種潛在的域内不變性(樣例不變性,相機不變性和領域不變性)提出了一個新的模型泛化方法。為了實作這個方法,我們在模型訓練過程中引入了一個樣例記憶子產品用以存儲目标資料在訓練過程中的中間特征。該樣例記憶子產品可以使我們快速的計算目标域中局部訓練樣本和全局樣本的相似性,同時有效的在模型訓練中加入提出的三個不變性限制。實驗證明本文提出的三個不變性性質對提升領域适應的性能是不可或缺的。同時,我們的方法在三個行人再識别的目标域中的準确率大大的超過了目前現有的方法。

應用場景:本文提出的方法能夠有效提升行人再識别模型在跨場景下的泛化能力。使得我們可以在現有的标注資料情況下,以無監督的方式提升模型在新的場景下的性能。

https://arxiv.org/abs/1904.01990 https://github.com/zhunzhong07/ECN

6)Searching for A Robust Neural Architecture in Four GPU Hours

論文作者:Xuanyi Dong, Yi Yang

論文介紹:本論文旨在解決神經網絡搜尋算法消耗GPU資源過大的問題。目前很多神經網絡搜尋算法在小資料集CIFAR上,都需要消耗成百上千的GPU/TPU。為了提高神經網絡的搜尋效率,我們提出了一種利用可微網絡結構采樣器的基于梯度的搜尋方法。我們的方法将整個搜尋空間用一個有向無環圖來表示,這個圖包含了成百萬多個子圖,每一個子圖都代表了一種網絡結構。針對這個有向無環圖,我們設計了一個可微的采樣器,利用Gumbel-Softmax技術将離散的采樣過程變成可微可導的;在訓練過程中,通過驗證集上的目标損失函數來優化這個采樣器,使得采樣器最終能過獲得一個性能較好的網絡結構。在實驗中,我們在一個GPU上,通過幾個小時的搜尋時間,就可以在CIFAR上找到一個高性能的網絡結構。

應用場景:本文提出的方法能夠有效地在較短時間利用少量GPU搜尋出魯棒的網絡結構,可以廣泛地應用在大部分任務裡,搜尋出對更小更快精度更高的網絡模型。

https://github.com/D-X-Y/GDAS

7)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-image Synthesis

論文作者:Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang

論文介紹:本論文旨在提升基于文本生成的圖檔的真實性。目前的方法都是先生成比較粗糙的初始圖像,然後再優化圖像進而生成高分辨率的真實圖像。然而,目前大多數方法仍存在兩個問題:

目前方法的結果很大程式上取決于初始圖像的品質。如果初始圖像品質不高,則第二階段優化很難将圖像優化到令人滿意的程度。

每個單詞對于不同的圖檔内容都有不同的資訊量,但目前方法在兩個階段中仍然保持了相同的單詞重要性。

在本文工作中,我們提出動态記憶生成對抗網絡(DM-GAN)來生成高品質的圖檔。我們提出了一個動态記憶子產品來優化粗糙的初始圖像,即使初始圖像生成不良,它也可以生成高品質的圖像。具體來說,動态記憶子產品包括一個根據初始圖像選擇重要文本資訊的記憶寫入門和一個自适應融合圖檔特征和文本資訊的回報門。我們在COCO和CUB資料集上評估了我們的模型。實驗結果表明,我們的方法在FID和IS名額以及真實性上都超過了目前方法。

應用場景:文本提出的方法可以顯著提升基于文本生成圖檔的真實性,我們可以實作文章自動配圖等功能,可以大大降低創作者的配圖成本。

https://arxiv.org/abs/1904.01310

8)Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation

論文作者:Fengda Zhu, Linchao Zhu, Yi Yang

論文介紹:在室内3D導航中,環境中的機器人根據指令移動到目标點。但是在實體世界中部署用于導航的機器人,需要大量的教育訓練資料來學習有效的政策。為機器人訓練獲得足夠的真實環境資料是代價昂貴的,是以我們提出通過合成資料渲染環境随後将政策遷移到真實環境中。雖然合成環境有利于來促進現實世界中的導航訓練,但真實環境與合成環境有兩個方面不同。首先,兩種環境的視覺表示具有顯着的差異。其次,兩個環境的房屋計劃有很大不同。是以,需要在強化模型中調整兩種類型的資訊,即視覺表示和政策行為。視覺表征和政策行為的學習過程是互惠的。

我們提出聯合調整視覺表現和政策行為,以實作環境和政策的互相影響。具體來說,我們的方法采用了用于視覺表征轉移的對抗特征适應模型和用于政策行為模仿的模拟政策。實驗結果表明,我們的方法在沒有任何額外的人類注釋的情況下優于基礎模型高達21.73%。

應用場景:本文提出的視覺特征适應模型和政策模拟模型可以有效将機器人在虛拟環境中學習到的政策和特征遷移到實際場景中,有利于導航機器人,無人車等需要大量資料訓練的應用在缺乏複雜場景的真實資料時,通過渲染環境獲得更好的政策。

https://arxiv.org/abs/1904.03895

9)Contrastive Adaptation Network for Unsupervised Domain Adaptation

論文作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G. Hauptmann

論文介紹:無監督域适應旨在利用帶标簽源域資料和無标簽目标域資料,獲得在目标域資料上的優良的預測性能。以往的方法在消除域差異的過程中沒有充分利用類别資訊,導緻對齊錯誤,影響泛化性能。為了解決這些問題,這篇文章提出了新的域差異度量名額 “對比域差異” 來刻畫類内和類間域差異,并且提出 “對比适應網絡” 來優化這個名額。我們設計了新的類感覺采樣方法,采用交替更新的方式端到端地優化我們的網絡。我們在兩個标準資料集上取得了比現有的方法更好的性能。

應用場景:可以提高單一場景訓練模型在缺乏标簽的新場景下的識别性能,如利用人工合成帶标簽資料集,在實際場景圖檔上進行識别等任務。

https://arxiv.org/abs/1901.00976

10)ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving

論文作者:Xibin Song, Peng Wang, Dingfu Zhou, Rui Zhu, Chenye Guan, Yuchao Dai, Hao Su, Hongdong Li, Ruigang Yang

亮點介紹:

本文提出了目前已知自動駕駛領域最大規模的三維車輛姿态資料集,共包含5000+高分辨率圖像(3384*2710)、6萬+車輛的三維姿态資訊及對應的車輛二維語義關鍵點資訊。圖像中每輛車使用工業級高精度的三維車輛模型進行三維與二維的比對擷取車輛姿态。本資料集的規模是目前自動駕駛領域相關資料集的20倍左右,如PASCAL3D+,KITTI等;

基于此資料集,本文提出了不同的方法進行車輛三維姿态估計,包括基于關鍵點的方法和非關鍵點的方法;

本文提出了完整的車輛三維資訊評估方法,包括車輛的形狀和姿态資訊,相比目前自動駕駛領域相關資料集的評估标準,本文的評估更加全面。

落地場景:自動駕駛領域,基于單張圖像的車輛姿态估計。

https://arxiv.org/abs/1811.12222

11)UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos

論文作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu

亮點介紹:隻通過雙目攝像頭的視訊,通過深度學習,就能學習到雙目深度視覺,光流和相機姿态。

落地場景:可以輔助支援自動駕駛雙目視覺模型,進而更好的從雷射的離散深度變換到稠密深度。

https://arxiv.org/abs/1810.03654

12)Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes

論文作者:Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding

亮點介紹:受限于神經網絡感受野大小限制和簡單的文字包圍盒表達(比如矩形框或四邊形),以往的文字檢測器在長詞和任意形狀的文字場景容易失敗。本文提出了一個新的文字檢測器架構,針對性的解決了這兩個問題。新的文字檢測器架構由三部分組成,直接回歸器(Direct Regressor, DR)、疊代改善子產品(Iterative Refinement Module, IRM)和文字形狀表達子產品(Shape Expression Module, SEM)。

DR輸出四邊形表達的文字檢測候選;IRM基于四邊形對應的特征塊逐漸感覺和改善完整的四邊形文字包圍盒以解決長詞檢測問題;SEM子產品則通過回歸完整四邊形候選框内的文字執行個體幾何資訊,來重建更加精準的上下頂點線對稱的多邊形文字表示。IRM和SEM作為可學習的和可插入的子產品,能夠聯合DR一起進行端到端的訓練。在包含多方向、長詞、任意彎曲和多語種場景的五個具有權威性的公開資料集合(ICDAR2017-RCTW, SCUT-CTW1500, Total-Text, ICDAR2015 and ICDAR17-MLT)上,我們提出的新檢測器和所有已公開論文中的純檢測方法作對比名額都達到了最好的效果(SOTA)。

https://arxiv.org/abs/1904.06535

13)STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing

論文作者:Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, Shilei Wen

亮點介紹:提出了STGAN方法用于圖檔/視訊的端到端屬性轉換。對傳統方法提出了兩點改進:

在自編碼網絡結構中引入選擇性屬性編輯單元強化了屬性編輯的效果;

提出了基于屬性更改的訓練機制。在celebA資料集上轉換效果全方位好于已有方法。

落地場景:視訊拍攝特效、物料樣式生成。

https://arxiv.org/abs/1904.09709 https://github.com/csmliu/STGAN

14)Attentive Feedback Network for Boundary-Aware Salient Object Detection

論文作者:Mengyang Feng, Huchuan Lu, and Errui Ding

論文介紹:最近基于深度學習的顯著目标檢測方法在完全卷積神經網絡(FCN)的基礎上實作了可喜的性能。然而,他們中的大多數都遭受了邊界挑戰。目前最先進的方法采用特征聚合技術,并且可以精确地找出其中的顯著目标,但是它們經常無法将具有精細邊界的整個對象分割出來,尤其是那些凸起的窄條紋。是以,基于FCN的模型仍有很大的改進空間。

在本文中,我們設計了注意回報子產品(AFM),以更好地探索對象的結構。我們還采用邊界增強損失(BEL)進一步學習精細邊界。我們提出的深度模型在目标邊界上獲得了令人滿意的結果,并在5個廣泛測試的顯著目标檢測基準上實作了最先進的性能。該網絡采用完全卷積方式,以26 FPS的速度運作,不需要任何後期處理。

https://github.com/ArcherFMY/AFNet

15)A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision

論文作者:Runmin Wu, Mengyang Feng, Wenlong Guan, Dong Wang, Huchuan Lu, Errui Ding

論文介紹:盡管近來深度學習技術在顯著目标檢測方面取得了很大進展,但由于目标的内部複雜性以及卷積和池化操作中的步幅導緻的不準确邊界,預測的顯著圖仍然存在不完整的預測。為了緩解這些問題,我們建議通過利用顯著目标檢測,以及前景輪廓檢測和邊緣檢測的監督來訓練顯著性檢測網絡。

首先,我們以交織的方式利用顯著目标檢測和前景輪廓檢測任務來生成具有均勻高光的顯著圖。其次,前景輪廓和邊緣檢測任務同時互相引導,進而導緻精确的前景輪廓預測并減少邊緣預測的局部噪聲。此外,我們開發了一種新穎的互相學習子產品(MLM),它作為我們方法的構模組化塊。每個MLM由多個以互相學習方式訓練的網絡分支組成,性能得意大大提高。我們對七個具有挑戰性的資料集進行的大量實驗表明,我們所提出的方法在顯著目标檢測和邊緣檢測方面都能達到最好的效果。

https://github.com/JosephineRabbit/MLMSNet

16)L3-Net: Towards Learning based LiDAR Localization for Autonomous Driving

論文作者:Weixin Lu, Yao Zhou, Guowei Wan, Shenhua Hou, Shiyu Song

亮點介紹:自定位子產品是無人車系統的基礎子產品之一,一個成熟的L4級别無人車定位系統需要提供厘米級定位精度的輸出結果。百度提出了一種基于學習的點雲定位技術,不同于傳統的人工設計的複雜算法,該技術對傳統的定位方法進行拆解,使用深度學習網絡來取代傳統的各個環節和步驟,并在一個包含多種場景路況和大尺度時間跨度的資料集上驗證了算法效果,實作了厘米級的定位精度。該方案是全球範圍内,業界首次通過使用直接作用于雷射點雲的深度學習網絡來解決自動駕駛的自定位問題。資料集包含了城市道路、園區道路和高速等多種富有挑戰的路況場景,資料總裡程達380km,即将在百度Apollo平台開放。

落地場景:百度無人車

https://songshiyu01.github.io/publication/cvpr2019_localization/

17)Improving Transferability of Adversarial Examples with Input Diversity

論文作者:Cihang Xie; Yuyin Zhou; Song Bai; Zhishuai Zhang; Jianyu Wang; Zhou Ren; Alan Yuille

論文介紹:盡管CNN已經在各種視覺任務上取得了非常好的表現,但它們很容易受到對抗性示例的影響,這些示例是通過在清晰的圖像中加入人類不易察覺的擾動而精心制作的。然而,大多數現有的對抗性攻擊在具有挑戰性的黑盒設定下隻能獲得相對較低的成功率,因為攻擊者不了解模型結構和參數。為此,我們建議通過建立不同的輸入模式來提高對抗性示例的可遷移性。我們的方法不是僅使用原始圖像來生成對抗性示例,而是在每次疊代時将随機變換應用于輸入圖像。

ImageNet上的大量實驗表明,我們所提出的攻擊方法生成的對抗性示例可以比現有基線更好地遷移到不同的網絡。通過評估我們針對NIPS 2017對抗性競争中的頂級防禦解決方案和官方基線的方法,增強型攻擊的平均成功率達到73.0%,在NIPS競争中的前1次攻擊送出率大幅提高6.6%。我們希望我們提出的攻擊政策可以作為評估網絡對抗的穩健性和未來不同防禦方法的有效性的強大基準基線。

https://arxiv.org/abs/1803.06978 https://github.com/cihangxie/DI-2-FGSM

繼續閱讀