ImageNet挑戰賽最後一屆，中國團隊又血拼了好多第一

雷鋒網(公衆号：雷鋒網)ai科技評論按：計算機視覺領域權威評測imagenet大規模圖像識别挑戰賽（large

scale visual recognition

challenge）自2010年開始舉辦以來，一直備受關注。2016年，在該比賽的圖像目标檢測任務中，國内隊伍大放異彩，包攬該任務前五名，而在今年的

ilsvrc 2017，多個國内院校和企業在各個比賽項目上同樣取得了非常不錯的成績。

雷鋒網了解到，今年挑戰賽共分為三大部分，包括：物體檢測（識别）、物體定位、視訊中目标物體檢測。在昨天，大賽公布了算法排名結果，奇虎和南京資訊工程大學團隊分别在物體定位和物體檢測項目上取得了最佳成績。國内自動駕駛公司momenta

研發團隊（wmw）的孫剛和胡傑與來自牛津大學的申麗合作，提出se架構，以2.3%的識别錯誤率榮獲物體識别冠軍。

奇虎360團隊

奇虎360和新加坡國立大學組隊，成立nus-qihoo_dpns (det)團隊。

奇虎360成員： jian dong, 顔水成。

新加坡國立大學成員：yunchao wei, mengdan zhang, jianan li, yunpeng chen, jiashi feng。

他們在基于

faster r-cnn 的目标檢測任務中，采用了一個包含全新雙路徑拓撲的雙路徑網絡（dpn／dual path network）。dpn

中的特征共享機制和探索新特征的靈活性在目标檢測中被證明有效。研究人員還采用了若幹個 dpn 模型，即

dpn-92、dpn-107、dpn-131 等，作為 faster r-cnn 架構中的中繼特征學習器（trunk feature

learner）和頭分類器（head classifier）。他們隻使用最多 131 層的網絡，因為在大多數常用的 gpu

内，它易于訓練和适應，且性能良好。對于區域提案生成，利用低級細粒度特征取得了有效的 proposals

召回。進而，通過在分割成檢測架構中采用擴充卷積，他們合并了有益的語境資訊。在測試期間，他們設計了一個類别權重政策，以探索不同類别的專家模型，并根據多任務推斷把權重用到不同的專家。除此之外，他們在圖像分類任務中采用了預訓練的模型以提取整體語境資訊，這可在整體輸入圖像中為探測結果的推理提供有益的線索。

南京資訊工程大學團隊

南京資訊工程大學與帝國理工大學搭檔，成立bdat團隊，在第一輪用提供的的訓練資料進行物體檢測，前三名都被bdat團隊拿下。

南京資訊工程大學成員：hui shuai、zhenbo yu、qingshan liu、 xiaotong yuan、kaihua zhang、yisheng zhu、guangcan liu 和 jing yang

帝國理工學院成員：yuxiang zhou、jiankang deng

該團隊表示他們在 loc 任務中使用了适應性注意力機制和深度聯合卷積模型。scale、context、采樣和深度聯合卷積網絡在 det 任務中得到了有效的使用。同時他們的得分排名也使用了物體機率估計。

自動駕駛技術momenta團隊

國内自動駕駛技術公司momenta 研發團隊的孫剛和胡傑與來自牛津大學的申麗合作，組成wmw團隊。

wmw團隊提出了一種新的機制稱為squeeze

excitation（簡稱se），以此來大幅提升模型的精度。它通過引入全局圖像的資訊自動對卷積特征重新配置設定權重，增強對分類有用的特征，而抑制無效或收益甚微的特征。在隻引入極少的計算量和參數量的情況下，可以将現有的絕大多數cnn的性能進行大幅提升。團隊成員之一孫剛表示，“這個架構下計算量與resnet50

相當的網絡可以達到resnet101 的性能。

接下來是分别對所有參賽團隊進行物體檢測（識别）、物體定位、視訊中目标物體檢測技術的評測。

a：使用提供的訓練資料進行目标檢測表現

一，根據檢測出的目标數量排序

二，根據檢測的平均準确率排序

小結：在給定的訓練資料，南京資訊工程大學團隊bdat在兩次排名中都名列第一。是以在物體檢測上bdat更勝一籌。

b：使用額外的訓練資料進行目标檢測（圖一檢測出的目标數量排序，圖二檢測的平均準确率排序）

圖一

圖二

小結：bdat團隊在額外的訓練資料進行目标檢測，依然是占據前兩名。第三名是奇虎360團隊，在目标檢測任務中也表現良好。

a: 使用提供的訓練資料進行分類+定位：以定位錯誤率排序，錯誤率低的靠前

以分類錯誤率排名（錯誤率低的靠前）

奇虎360團隊在定位錯誤率上排名第一，也就是說定位最準确，錯誤率僅為0.062263。這歸結于360和新加坡國立大學共同提出了一個包含全新雙路徑拓撲的雙路徑網絡（dpn／dual

path network）。第二名、第三名則是來自 trimps-soushen（公安部三所）。

而從分類誤差率的排名來看，自動駕駛技術momenta團隊的分類錯誤率最低，他們wmw團隊提出了一種新的機制稱為squeeze & excitation（簡稱se），大幅度提升了模型的精度。

b: 在接下來使用額外資料來進行分類和定位的任務中，奇虎360團隊，兩次排名的錯誤率都是最低，其次是南京資訊工程大學團隊bdat。

a: 使用提供的訓練資料進行視訊目标檢測（分别根據檢測出來的目标種類和平均精準度排名）

在這場測試中，隻有奇虎360團隊表現相對不錯，而南京資訊工程大學團隊和momenta團隊都沒有進入前五名，第一名是由來自帝國理工學院和悉尼大學所組成的

ic&usyd 團隊獲得。奇虎360團隊在視訊目标檢測任務中表現優異是因為他們的模型主要是基于 faster r-cnn

并使用雙路徑網絡作為支柱，采用了三種 dpn 模型（即 dpn-96、dpn-107 和 dpn-131）和 faster r-cnn

架構下的頂部分類器作為特征學習器。

b: 使用額外的訓練資料進行視訊目标檢測

使用額外的訓練資料進行視訊目标檢測和使用提供的訓練資料檢測，效果差不多，依然是帝國理工學院和悉尼大學團隊ic&usyd取得的成績最好，其次是奇虎360團隊。

雷鋒網小結：ilsvrc

2017是imagenet 競賽的最後一次，中國代表團體在最後的這場比賽中，依然賽出了自己的水準，沒有留下遺憾。今後webvision

challenge将會替代ilsvrc，雖然webvision

中的資料比人工标記的imagenet擁有更多的噪聲，但他的資料更多是從網絡中擷取，是以成本也要低很多。另外從2016 年 ilsvrc

的圖像識别錯誤率已經達到約

2.9%，遠遠超越人類的5.1%，這類競賽已經完成了它的曆史使命，失去了存在的意義。未來，計算機視覺的重點在圖像了解。最後，讓我們記住此次中國團隊在比賽中取得的輝煌成績吧！同時也期望在新的賽場依然能風采依舊！

本文作者：楊文

ImageNet挑戰賽最後一屆，中國團隊又血拼了好多第一

繼續閱讀

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

适用于自動駕駛 (ADAS) 平台的ASIL-Ready 智能供電與監控解決方案

Matlab中将二維灰階圖像三維顯示

車道線檢測資料集

車道線檢測

車道線檢測（筆記）

自監督｜「CoCLR」視訊自監督對比學習筆記

自動駕駛Nvidia Jetson +FPGA設計方案

基于ROS2的話題通訊控制大疆EP基于ROS2的話題通訊控制大疆EP

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡