天天看點

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

(自己寫的,需要轉載請聯系作者,或者标明出處呀,歡迎加微信交流:wx604954)

摘要:目标檢測是計算機視覺中一個重要問題,在行人跟蹤、車牌識别、無人駕駛等領域都具有重要的研究價值。近年來,随着深度學習對圖像分類準确度的大幅度提高,基于深度學習的目标檢測算法逐漸成為主流。本文介紹了目前發展迅猛的深度學習方法在目标檢測中的最新應用進展,然後介紹了基于深度學習的目标檢測算法在醫學圖像領域的應用,最後讨論了深度學習方法應用于目标視覺檢測時存在的困難和挑戰, 并對今後的發展趨勢進行展望。

關鍵詞:深度學習;卷積神經網絡;目标檢測;醫學影像

1 引言

目标檢測是計算機視覺領域中一個非常重要的研究問題。随着電子裝置的應用在社會生産和人們生活中越來越普遍,數字圖像已經成為不可缺少的資訊媒介,每時每刻都在産生海量的圖像資料。與此同時,對圖像中的目标進行精确識别變得越來越重要[1]。我們不僅關注對圖像的簡單分類,而且希望能夠準确獲得圖像中存在的感興趣目标及其位置[2],并将這些資訊應用到視訊監控、自主駕駛等一系列現實任務中,是以目标檢測技術受到了廣泛關注。

目标檢測具有巨大的實用價值和應用前景。應用領域包括智能視訊監控、機器人導航、數位相機中自動定位和聚焦人臉的技術、飛機航拍或衛星圖像中道路的檢測、車載錄影機圖像中的障礙物檢測、醫學影像在的病竈檢測等[3]–[10]。同時,目标檢測也是衆多高層視覺處理和分析任務的重要前提,例如行為分析、事件檢測、場景語義了解、病竈檢測等都要求利用圖像處理和模式識别技術,檢測出圖像中存在的目标,确定這些目标對象的語義類型,并且标出目标對象在圖像中的具體區域[11]。

在自然環境條件下,目标檢測經常遇到以下幾個方面的挑戰:

(1)類内和類間差異

對于很多物體,它們自身就存在很大的差異性,同類物體的不同執行個體在顔色、材料、形狀等方面可能存在巨大的差異,很難訓練一個能夠包含所有類内變化的特征描述模型。另外,不同類型物體之間又可能具有很大的相似性,甚至非專業人員從外觀上很難區分它們。類内差異可能很大,而類間差異可能很小,給目标檢測提出了挑戰。

(2)圖像采集條件

在圖像采集過程中,由于環境、光照、天氣、拍攝視角和距離的不同、物體自身的非剛體形變以及可能被其他物體部分遮擋,導緻物體在圖像中的表觀特征具有很大的多樣性,對目标檢測算法的魯棒性提出了很高要求。

(3)語義了解的差異

對同一幅圖像,不同的人可能會有不同的了解,這不僅與個人的觀察視角和關注點有關,也與個人的性格、心理狀态和知識背景等有關,這明顯增加了從仿生或類腦角度來研究視覺算法的難度。

(4)計算複雜性和自适應性

目标檢測的計算複雜性主要來自于待檢測目标類型的數量、特征描述子的次元和大規模标記資料集的擷取。由于在真實世界中存在大量的目标類型,每種類型都包含大量的圖像,同時識别每種類型需要很多視覺特征,這導緻高維空間稀疏的特征描述[4]。另外,目标模型經常從大規模标記資料集中學習得到,在許多情況下,資料采集和标注很困難,需要耗費大量的人力物力。這些情況導緻目标檢測的計算複雜性很高,需要設計高效的目标檢測算法。同時,在動态變化的環境中,為了提高目标檢測精度,還需要探索合适的機制來自動更新視覺模型,提高模型對複雜環境的自适應能力。

為了克服上述挑戰,已經提出了許多目标檢測算法,它們在目标區域建議、圖像特征表示、候選區域分類等步驟采用了不同的處理政策。近年來,随着深度學習技術的發展,很多基于深度學習的目标檢測方法陸續被提出,在精度上顯著優于傳統方法,成為最新的研究熱點。

本文内容安排如下:第1節介紹目标檢測的基本概念和面臨的挑戰;第2節介紹深度學習算法在目标檢測中的最新進展;第3節介紹深度學習算法在醫學圖像檢測領域的應用;第4節讨論深度學習算法應用于目标檢測時存在的困難和挑戰,并對今後的發展趨勢進行展望;第5節對本文進行總結。

2 基于深度學習的目标檢測算法

2.1 基于Region proposal的目标檢測算法

卷積神經網絡(CNN)是目标區域建議 (Region proposal)算法中的核心組成部分,卷積神經網絡最早是由Yann LeCun教授提出來的[12],早期的卷積神經網絡是用作分類器使用,主要用于圖像的識别。然而卷積神經網絡有3個結構上的特性:局部連接配接、權重共享以及空間或時間上的采樣。這些特性使得卷積神經網絡具有一定程度上的平移、縮放和扭曲不變性。在2006年Hinton提出利用深度神經網絡從大量的資料中自動的學習高層特征。Region proposal在此基礎之上解決了傳統目标檢測的兩個主要問題。比較常用的Region proposal方法有Selective Search[13]和Edge Boxes[14]。此後,CNN網絡迅速發展,微軟最新的ResNet和谷歌的Inception V4[15], [16]模型的Top-5 error降到了4%以内,是以目标檢測得到候選區域後使用CNN對其進行圖像分類的準确率和檢測速度上都有提高。

2.1.1 R-CNN算法

G

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

irshick等[17]提出的R-CNN (Region-based convolutional neural networks)方法,是近年來基于深度學習的目标檢測研究的重要參考方法。 RCNN将目标區域建議 (Region proposal)和CNN相結合,在PASCAL VOC 2012[18]上的檢測平均精度mAP(Mean average precision)達到53.3%,比傳統方法有了明顯改進。

圖1 R-CNN 的計算流程

R-CNN的基本流程如圖1所示,首先對每一幅輸入圖像采用選擇性搜尋(Selective search)[13]來提取候選區域;然後用CNN網絡從每個區域提取一個固定長度的特征向量,這裡采用AlexNet[15]結構,圖像經過5個卷積層和2個全連接配接層,得到一個4096維的特征向量; 接着把提取到的特征向量送入支援向量機進行分類。由于一些區域存在高度交疊,Girshick等采用非極大值抑制 (Non-maximum suppression)來舍棄那些與更高得分區域IoU (Intersection-over-Union) 過大的區域。為了得到更精确的結果,還采用了邊框回歸方法來進一步改善檢測結果。在 R-CNN 模型的訓練過程中,由于目标檢測标注資料集的規模不夠,Girshick等先将網絡在大規模資料集ImageNet[19]上進行預訓練,然後用 N+1類 (N個目标類和1個背景類) 的輸出層來替換1000類的Softmax層,再針對目标檢測任務,用PASCAL VOC 資料集進行微調。這種方法很好地解決了訓練資料不足的問題,進一步提升了檢測精度。得益于CNN的參數共享以及更低次元的特征,整個檢測算法更加高效。

然而,R-CNN也存在一些不容忽視的問題:

(1)候選區域之間的交疊使得特征被重複提取,造成了嚴重的速度瓶頸, 降低了計算效率。

(2) 将候選區域直接縮放到固定大小,破壞了物體的長寬比,可能導緻物體的局部細節損失。

(3) 使用邊框回歸有助于提高物體的定位精度,但是如果待檢測物體存在遮擋,該方法将難以奏效。

2.1.2 SPP-Net

He等[20]針對R-CNN速度慢以及要求輸入圖像塊尺寸固定的問題,提出空間金字塔池化(Spatial pyramid pooling,SPP)模型。在R-CNN中,要将提取到的目标候選區域變換到固定尺寸,再輸入到卷積神經網絡,He等加入了一個空間金字塔池化層來避免了這個限制。SPP-net網絡不論輸入圖像的尺寸大小,都能産生固定長度的特征表示。SPP-net是對整幅圖像提取特征,在最後一層卷積層得到特征圖後,再針對每個候選區域在特征圖上進行映射,由此得到候選區域的特征。因為候選區域的尺寸各不相同,導緻它們映射所得到的特征圖大小也不同,但CNN的全連接配接層需要固定次元的輸入,是以引入了空間金字塔池化層來把特征轉換到相同的次元。

空間金字塔池化的思想來源于空間金字塔模型(Spatial pyramid model,SPM)[21],它采用多個尺度的池化來替代原來單一的池化。SPP層用不同大小的池化視窗作用于卷積得到的特征圖,池化視窗的大小和步長根據特征圖的尺寸進行動态計算。SPP-net對于一幅圖像的所有候選區域,隻需要進行一次卷積過程,避免了重複計算,顯著提高了計算效率,而且空間金字塔池化層使得檢測網絡可以處理任意尺寸的圖像,是以可以采用多尺度圖像來訓練網絡,進而使得網絡對目标的尺度有很好的魯棒性。該方法在速度上比R-CNN提高24-102倍,并且在PASCAL VOC 2007和Caltech 101資料集上取得了當時最好的成績。

但是它存在以下缺點:

(1)SPP-net的檢測過程是分階段的,在提取特征後用SVM分類,然後還要進一步進行邊框回歸,這使得訓練過程複雜化。

(2)CNN提取的特征存儲需要的空間和時間開銷大。

(3)在微調階段,SPP-net隻能更新空間金字塔池化層後的全連接配接層,而不能更新卷積層,這限制了檢測性能的提升。

2.1.3 Fast-RCNN

Girshick等[22]對R-CNN和SPP-net進行了改進,提出能夠實作特征提取、區域分類和邊框回歸的端到端聯合訓練的Fast-RCNN算法,計算流程如圖2所示。

與R-CNN類似,FastR-CNN首先在圖像中提取感興趣區域(Regions of Interest,RoI);然後采用與SPP-net相似的處理方式,對每幅圖像隻進行一次卷積,在最後一個卷積層輸出的特征圖上對每個RoI進行映射,得到相應的RoI的特征圖,并送入RoI池化層(相當于單層的SPP層,通過該層把各尺寸的特征圖統一到相同的大小);最後經過全連接配接層得到兩個輸出向量,一個進行Softmax分類,另一個進行邊框回歸。在微調階段,FastR-CNN采用一種新的層級采樣方法,先采樣圖像,再從采樣出的圖像中對RoI進行采樣,同一幅圖像的RoI共享計算和記憶體,使得訓練更加高效。FastR-CNN采用Softmax分類與邊框回歸一起進行訓練,省去了特征存儲,提高了空間和時間使用率,同時分類和回歸任務也可以共享卷積特征,互相促進。與R-CNN相比,在訓練VGG[23]網絡時,FastR-CNN的訓練階段快9倍,測試階段快213倍;與SPP-net相比,Fast R-CNN的訓練階段快3倍,測試階段快10倍,并且檢測精度有一定提高。然而,Fast R-CNN仍然存在速度上的瓶頸,區域建議步驟耗費了整個檢測過程的大量時間。

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

圖2 Fast R-CNN 的計算流程

2.1.4 Faster R-CNN

SPP-Net和Fast R-CNN從特征提取的角度,減少了工作量,但依然沒有解決Selective Search選擇候選區域速度慢的問題。Faster R-CNN [24]使用RPN網絡(Region Proposal Networks)替代Selective Search算法,使目辨別别實作真正端到端的計算。

如圖3所示,RPN網絡通過在特征圖上做滑窗操作,使用預設尺度的錨點框映射到原圖,得到候選區域。RPN網絡輸入的特征圖和全連接配接層中的特征圖共享計算。RPN的使用,使Faster R-CNN能夠在一個網絡架構之内完成候選區域、特征提取、分類、定位修正等操作。

R

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

PN使得Faster R-CNN在region proposal階段隻需10ms,檢測速度達到5f/s(包括所有步驟),并且檢測精度也得到提升,達到73.2%。但是,Faster R-CNN仍然使用ROI Pooling,導緻之後的網絡特征失去平移不變性,影響最終定位準确性;ROI Pooling後每個區域經過多個全連接配接層,存在較多重複計算;Faster R-CNN在特征圖上使用滑動框對應原圖,而滑動框經過多次下采樣操作,對應原圖一塊較大的區域,導緻Faster R-CNN檢測小目标的效果并不是很好。

圖3 RPN網絡示意圖

2.1.5 R-FCN

目标檢測要包括兩個問題:分類問題和檢測定位問題。前者具有平移不變性,後者具有平移敏感性。

R-FCN[25]使用全卷積網絡 ResNet[26]代替VGG,提升特征提取與分類的效果;針對全卷積網絡不适應平移敏感性的缺陷,該算法使用特定的卷積層生成包含目标空

間位置資訊的位置敏感分布圖(Position Sensitive Score Map);ROI Pooling 層後不再連接配接全連接配接層,避免重複計算。

R-FCN的準确率達到83.6%,測試每張圖檔平均花費170ms,比Faster-RCNN快了2.5-20倍。但是R-FCN在得到Score map需要生成一個随類别數線性增長的channel數,這一過程雖然提升了目标檢測精度,但減慢了檢測速度,導緻其難以滿足實時性要求。

2.1.6 Mask R-CNN

M

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

ask R-CNN[27]是一種在Faster R-CNN 基礎上加以改進的算法,增加了對執行個體分割的關注,結構如圖4所示。該算法在分類和定位回歸以外,加入了關于執行個體分割的并行分支,并将三者的損失聯合訓練。

圖4 Mask R-CNN結構示意圖

執行個體分割要求執行個體定位的精準度達到像素級,而Faster R-CNN因為ROI Pooling 層的等比例縮放過程中引入了誤差,導緻空間量化較為粗糙,無法準确定位。Mask R-CNN 提出雙線性內插補點RoIAlign獲得更準确的像素資訊,使得掩碼(mask)準确率提升10%到50%;Mask R-CNN 還使用ResNeXt[28]基礎網絡,在COCO資料集[29]上的檢測速度為5f/s,檢測準确性 FastR-CNN的19.7%提升至39.8%。

Mask R-CNN在檢測精度、執行個體分割方面都達到目前最高的層次。其後一些算法在性能上有所提升,但基本維持在同一水準。但是該算法的檢測速度依舊難以滿足實時要求,并且執行個體分割目前也還面臨着标注代價過于昂貴的問題。

2.2 基于回歸的目标檢測算法

基于回歸的目标檢測架構不需要産生候選視窗,直接将待檢測的圖像送入目标視窗,得到目标物體所在的位置。

2.2.1 YOLO

從R-CNN到Faster R-CNN,目标檢測始終遵循“region proposal+分類”的思路,訓練兩個模型必然導緻參數、訓練量的增加,影響訓練和檢測的速度。由此,YOLO[30]提出了一種“single-stage”的思路。

如圖5所示,YOLO将圖檔劃分為S×S的網格(cell),各網格隻負責檢測中心落在該網格的目标,每個網格需要預測兩個尺度的bounding box和類别資訊,一次性預測所有區域所含目标的bounding box、目标置信度以及類别機率完成檢測。

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

圖5 YOLO網格劃分示意

YOLO采用以cell為中心的多尺度區域取代region proposal,舍棄了一些精确度以換取檢測速度的大幅提升,檢測速度可以達到45f/s,足以滿足實時要求;檢測精度為63.4%,較Faster R-CNN的73.2%,差距較大。

YOLO在極大提高檢測速度的情況下,也存在以下問題:

(1)因為每個網格值預測兩個bounding box,且類别相同,是以對于中心同時落在一個網格總的物體以及小物體的檢測效果差,多物體環境下漏檢較多。

(2)由于YOLO關于定位框的确定略顯粗糙,是以其目标位置定位準确度不如Fast-RCNN。

(3)對于外型非正常的物體檢測效果不佳。

2.2.2 SSD

Faster R-CNN檢測檢測精度高但檢測速度慢,YOLO檢測精度不高但檢測速度快,SSD[31]則結合兩者的優點,在YOLO的基礎上借鑒了RPN的思路,在保證高精度檢測的同時,兼顧檢測速度。

如圖6所示,因為不同層的特征圖具有對應大小的感受野,特定層的特征圖隻需要訓練對應尺度的對象檢測。是以,SSD結合高層和底層的特征圖,使用多尺度區域特征進行回歸。

SSD300的mAP能達到73.2%,基本與Faster R-CNN(VGG16)持平,而檢測速度達到59f/s,比Faster R-CNN快6.6倍。

基于深度學習的目标檢測算法及其在醫學影像中的應用1 引言2 基于深度學習的目标檢測算法3 深度學習算法在醫學影像領域的應用4 思考與展望5 總結參考文獻

圖 6 特征圖感受野示意圖

然而 SSD具有以下問題:

(1)小目标對應到特征圖中很小的區域,無法得到充分訓練,是以 SSD 對于小目标的檢測效果依然不理想。

(2)無候選區域時,區域回歸難度較大,容易出現難以收斂等問題。

(3)SSD不同層的特征圖都作為分類網絡的獨立輸入,導緻同一個物體被不同大小的框同時檢測,重複運算。

3 深度學習算法在醫學影像領域的應用

(需要檢視請聯系部落客)

4 思考與展望

基于深度學習的目标檢測算法在檢測精度以及檢測速度上,較傳統方法獲得了極大的提高,但依然面臨這一些問題:

(1)對于小資料量,目前的架構可能無法得到好的結果。目前的算法,大多使用了遷移學習,也就是先在現有的大資料集中進行訓練,再将訓練好的“半成品”做fine-tune操作。若目标資料不在ImageNet等資料集中,訓練效果要視目标與大資料集相關程度而定。DSOD[47]算法雖然設計了一種從零開始訓練的網絡,也取得了不錯的效果,但是其檢測速度尚有待提升。

(2)深度學習算法的解釋性差,特别是在更深的層次上,很多時候隻能依靠測試和經驗來猜測其有效或無效的原因,對于中間的過程缺少明确的解釋,更像是一個黑盒。

(3)計算強度大。GPU的使用,提升了計算機的運算能力,但是很多操作依然過于龐大。如何簡化、複用計算的同時,盡可能保證準确率,可能會是一個可以創新的點。

(4)對于場景資訊、語義資訊等圖像中原有資訊的利用不充分,造成一些有效資訊的損失。

(5)無論是R-CNN系列還是SSD等算法,始終無法在小目标檢測問題上獲得令人滿意的效果。就目前算法而言,為保證檢測速度,通常減少特征金字塔的圖像,以減少計算量,但這必然導緻小目标在特征圖上得不到充分訓練;如R-SSD增加特征圖數量,損失了檢測速度。此問題與問題(3)有一定相通之處。

針對上述問題以及近幾年研究趨勢,本文對目标檢測算法未來的發展方向做出讨論:

(1)更多更全面的資料集。目前有兩種解決思路:一種是人工手動标注,對于小資料量而言,操作簡單且能保證較高正确率,但對大資料量以及物體分割要求精準标注的資料時,力有不逮;另一種是使用平行視覺方法,旨在利用人工場景模拟實際場景,通過計算實驗對模型進行設計和評估,平行執行線上優化視覺系統。平行視覺如果實作,那麼将解決标注資料集不足的問題,促進目标檢測發展。

(2)更多的計算共享。不論是R-CNN系列還是基于回歸的檢測算法,都是為了讓不同的ROI之間的計算量得到更多的共享,以達到加快運算的目的。

(3)RNN思想的嘗試。圖像本身是包含上下文資訊的,這是人類做出某些判斷的依據。深度學習是一種類人的“學習”方式,結合深度學習中的循環神經網絡思想是一種較可能實作的思路。另外,結合具體場景及語意資訊,真正去“了解”場景也是一種思路。

(4)更具體的應用場景。Wang等人[48]提出一種利用卷積網絡檢測視訊中顯著目标的模型;Li等人[49]提出一種檢測小型交通标志的網絡;Dong[50]和Chen等人[51]探索如何将自然環境中的目标檢測轉換為3D;Dave等人[52]更關注對目标具體動作的識别。可以看出,目标檢測,特别是基于深度學習的目标檢測,正在向着更具體、更實際的場景發展。

(5)“新”神經網絡的應用。從AlexNet到VGG再到ResNet和ResNext,基礎網絡的改進,也是目标檢測效果不斷提升原因之一。早在2011年,被譽為“神經網絡之父”的Hinton就提出capsule[53]的概念。他在2017年的論文中提出了捕捉空間結構資訊的capsule概念,用向量輸出代替标量輸出,改善CNN網絡各特征之間聯系缺失,需要大量資料集的問題。

5 總結

從最初的人為尋找特征到最近的基于深度學習的目标檢測算法,可以看出對于目标檢測的要求始終是快速、精準以及适用範圍廣。就目前來說,傳統的目标檢測方法仍在使用,且在一段時間内仍會有一定市場。傳統的目标檢測技術對資料量要求少,在針對資料來源不夠豐富的項目時,可能會取得比深度學習更好的效果。但是将深度學習應用到目标檢測中是可以預見的主流趨勢。特别是随着硬體裝置性能的提升,一定範圍内的運算量處理将不會再成為實時檢測的掣肘。

如何利用上下文關聯資訊、場景資訊和語義資訊,将會是接下來目标檢測的一個重要研究方向。假使平行視覺的思路切實可行,那麼資料集标注困難、資料量不足的問題,将獲得較好的解決。另外,如何更好解決與訓練集關聯性不大的小資料集檢測問題,也是一個比較重要的研究方向。Hinton的capsule能否獲得比傳統CNN更好的效果,也需要進行進一步的研究。

參考文獻

[1] C. Szegedy, A. Toshev, and D. Erhan, “Deep Neural Networks for Object Detection,” Adv. Neural Inf. Process. Syst., 2013.

[2] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object Detection with Discriminative Trained Part Based Models,” IEEE Trans. Pattern Anal. Mach. Intell., 2010.

[3] P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast feature pyramids for object detection,” IEEE Trans. Pattern Anal. Mach. Intell., 2014.

[4] J. Gall and V. Lempitsky, “Class-specific hough forests for object detection,” in 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2009, 2009.

[5] A. Tigadi, R. Gujanatti, and A. Gonchi, “Advanced Driver Assistance Systems,” Int. J. Eng. Res. Gen. Sci., 2016.

[6] A. Jazayeri, H. Cai, J. Y. Zheng, and M. Tuceryan, “Vehicle Detection and Tracking in Car Video Based on Motion Model,” Intell. Transp. Syst. IEEE Trans., 2011.

[7] C. Caraffi, T. Vojir, J. Trefný, J. Šochman, and J. Matas, “A system for real-time detection and tracking of vehicles from a single car-mounted camera,” in IEEE Conference on Intelligent Transportation Systems, Proceedings, ITSC, 2012.

[8] M. Wang, W. Daamen, S. P. Hoogendoorn, and B. Van Arem, “Driver assistance systems modeling by model predictive control,” IEEE Conf. Intell. Transp. Syst. Proceedings, ITSC, 2012.

[9] H. Cho, Y. W. Seo, B. V. K. V. Kumar, and R. R. Rajkumar, “A multi-sensor fusion system for moving object detection and tracking in urban driving environments,” in Proceedings - IEEE International Conference on Robotics and Automation, 2014.

[10] J. Levinson, J. Askeland, J. Becker, J. Dolson, D. Held, S. Kammel, J. Z. Kolter, D. Langer, O. Pink, V. Pratt, M. Sokolsky, G. Stanek, D. Stavens, A. Teichman, M. Werling, and S. Thrun, “Towards fully autonomous driving: Systems and algorithms,” in IEEE Intelligent Vehicles Symposium, Proceedings, 2011.

[11] X. Zhang, Y.-H. Yang, Z. Han, H. Wang, and C. Gao, “Object Class Detection: A Survey,” ACM Comput. Surv., 2013.

[12] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition,” Proc. IEEE, 1998.

[13] J. R. R. Uijlings, K. E. A. Van De Sande, T. Gevers, and A. W. M. Smeulders, “Selective search for object recognition,” Int. J. Comput. Vis., 2013.

[14] C. L. Zitnick and P. Dollár, “Edge boxes: Locating object proposals from edges,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2014.

[15] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Adv. Neural Inf. Process. Syst., 2012.

[16] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, A. Rabinovich, K. He, X. Zhang, S. Ren, J. Sun, A. Rajkomar, S. Lingam, A. G. Taylor, M. Blum, J. Mongan, Y. Gong, K. H. T. Leung, A. T. Toshev, S. Ioffe, Y. Jia, K. He, X. Zhang, S. Ren, J. Sun, Z. Z. Z. Wang, X. X. Wang, G. Wang, O. M. Parkhi, A. Vedaldi, A. Zisserman, others, O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, others, L. Wang, S. Guo, W. Huang, Y. Xiong, Y. Qiao, C. Szegedy, S. Ioffe, V. Vanhoucke, A. A. Alemi, K. He, X. Zhang, S. Ren, J. Sun, G. Böning, J. F. Kahn, D. Kaul, R. Rotzinger, P. Freyhardt, M. Pavel, F. Streitparth, K. Simonyan, A. Zisserman, L. C. Gansel, N. Bloecher, O. Floerl, J. Guenther, K. Kang, H. H. Li, J. Yan, X. Zeng, B. Yang, T. Xiao, C. Zhang, Z. Z. Z. Wang, R. Wang, X. X. Wang, others, X. He, L. Liao, H. Zhang, L. Nie, X. Hu, T.-S. Chua, W. Liu, Z. Z. Z. Wang, X. Liu, N. Zeng, Y. Y. Liu, F. E. Alsaadi, H. H. Li, L. Zhang, X. Zhou, B. Huang, A. G. Trofimov, B. M. Velichkovskiy, S. L. Shishkin, S. Wu, S. Zhong, Y. Y. Liu, X. He, L. Liao, H. Zhang, L. Nie, X. Hu, T.-S. Chua, R. Ramachandra, S. Y. McGrew, J. C. Baxter, J. R. Howard, K. S. Elmslie, N. Vervliet, O. Debals, L. Sorber, and L. De Lathauwer, “Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning.,” Proc. IEEE Int. Conf. Comput. Vis., 2017.

[17] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2014.

[18] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (VOC) challenge,” Int. J. Comput. Vis., 2010.

[19] Jia Deng, Wei Dong, R. Socher, Li-Jia Li, Kai Li, and Li Fei-Fei, “ImageNet: A large-scale hierarchical image database,” in 2009 IEEE Conference on Computer Vision and Pattern Recognition, 2009.

[20] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., 2015.

[21] S. Lazebnik, C. Schmid, and J. Ponce, “Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006.

[22] R. Girshick, “Fast R-CNN,” in Proceedings of the IEEE International Conference on Computer Vision, 2015.

[23] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” Int. Conf. Learn. Represent., 2015.

[24] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Trans. Pattern Anal. Mach. Intell., 2017.

[25] L. Gi. Roberts, “Machine perception of three-dimensional solids,” 1965.

[26] J. Canny, “A Computational Approach to Edge Detection,” IEEE Trans. Pattern Anal. Mach. Intell., 1986.

[27] K. He, G. Gkioxari, P. Dollar, and R. Girshick, “Mask R-CNN,” in Proceedings of the IEEE International Conference on Computer Vision, 2017.

[28] S. Xie, R. Girshick, P. Dollár, Z. Tu, and K. He, “Aggregated residual transformations for deep neural networks,” in Proceedings - 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, 2017.

[29] T. Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C. L. Zitnick, “Microsoft COCO: Common objects in context,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2014.

[30] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “(2016 YOLO)You Only Look Once: Unified, Real-Time Object Detection,” Cvpr 2016, 2016.

[31] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C. Y. Fu, and A. C. Berg, “SSD: Single shot multibox detector,” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2016.

[32] Y. Al-Kofahi, W. Lassoued, W. Lee, and B. Roysam, “Improved automatic detection and segmentation of cell nuclei in histopathology images,” IEEE Trans. Biomed. Eng., 2010.

[33] A. Oliver, J. Freixenet, J. Martí, E. Pérez, J. Pont, E. R. E. Denton, and R. Zwiggelaar, “A review of automatic mass detection and segmentation in mammographic images,” Med. Image Anal., 2010.

[34] D. Rey, G. Subsol, H. Delingette, and N. Ayache, “Automatic detection and segmentation of evolving processes in 3D medical images: Application to multiple sclerosis,” Med. Image Anal., 2002.

[35] H. C. Shin, H. R. Roth, M. Gao, L. Lu, Z. Xu, I. Nogues, J. Yao, D. Mollura, and R. M. Summers, “Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning,” IEEE Trans. Med. Imaging, 2016.

[36] R. K. Samala, H.-P. Chan, L. Hadjiiski, M. A. Helvie, J. Wei, and K. Cha, “Mass detection in digital breast tomosynthesis: Deep convolutional neural network with transfer learning from mammography,” Med. Phys., 2016.

[37] N. Tajbakhsh, J. Y. Shin, S. R. Gurudu, R. T. Hurst, C. B. Kendall, M. B. Gotway, and J. Liang, “Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning?,” IEEE Trans. Med. Imaging, 2016.

[38] R. Sa, W. Owens, R. Wiegand, M. Studin, D. Capoferri, K. Barooha, A. Greaux, R. Rattray, A. Hutton, J. Cintineo, and V. Chaudhary, “INTERVERTEBRAL DISC DETECTION IN X-RAY IMAGES USING FASTER R-CNN State University of New York ( SUNY ) at Buffalo Spine Metrics , Inc . University of Bridgeport College of Chiropractic Academy of Chiropractic,” pp. 564–567, 2017.

[39] J. Liu, D. Wang, L. Lu, Z. Wei, L. Kim, E. B. Turkbey, B. Sahiner, N. A. Petrick, and R. M. Summers, “Detection and diagnosis of colitis on computed tomography using deep convolutional neural networks,” Med. Phys., 2017.

[40] R. Ben-Ari, A. Akselrod-Ballin, L. Karlinsky, and S. Hashoul, “Domain specific convolutional neural nets for detection of architectural distortion in mammograms,” in Proceedings - International Symposium on Biomedical Imaging, 2017.

[41] T. Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, “Focal Loss for Dense Object Detection,” in Proceedings of the IEEE International Conference on Computer Vision, 2017.

[42] R. Platania, J. Zhang, S. Shams, K. Lee, S. Yang, and S. J. Park, “Automated breast cancer diagnosis using deep learning and region of interest detection (BC-DROID),” in ACM-BCB 2017 - Proceedings of the 8th ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics, 2017.

[43] Z. Cao, L. Duan, G. Yang, T. Yue, Q. Chen, H. Fu, and Y. Xu, Breast Tumor Detection in Ultrasound Images Using Deep Learning. 2017.

[44] N. Li, H. Liu, B. Qiu, W. Guo, S. Zhao, K. Li, and J. He, “Detection and Attention: Diagnosing Pulmonary Lung Cancer from CT by Imitating Physicians,” 2017.

[45] B. D. De Vos, J. M. Wolterink, P. A. De Jong, M. A. Viergever, and I. B. T.-M. I. 2016: I. P. Išgum, “2D image classification for 3D anatomy localization: employing deep convolutional neural networks,” 2016, p. 97841Y.

[46] H. R. Roth, L. Lu, A. Seff, K. M. Cherry, J. Hoffman, S. Wang, J. Liu, E. Turkbey, and R. M. Summers, “A New 2.5D Representation for Lymph Node Detection Using Random Sets of Deep Convolutional Neural Network Observations,” in Medical Image Computing and Computer-Assisted Intervention -- MICCAI 2014: 17th International Conference, Boston, MA, USA, September 14-18, 2014, Proceedings, Part I, 2014.

[47] Z. Shen, Z. Liu, J. Li, Y. G. Jiang, Y. Chen, and X. Xue, “DSOD: Learning Deeply Supervised Object Detectors from Scratch,” in Proceedings of the IEEE International Conference on Computer Vision, 2017.

[48] W. Wang, J. Shen, and L. Shao, “Video Salient Object Detection via Fully Convolutional Networks,” IEEE Trans. Image Process., 2018.

[49] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan, “Perceptual Generative Adversarial Networks for Small Object Detection,” Cvpr, 2017.

[50] J. Dong, X. Fei, and S. Soatto, “Visual-Inertial-Semantic Scene Representation for 3D Object Detection,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[51] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D Object Detection Network for Autonomous Driving,” in CVPR, 2017.

[52] A. Dave, O. Russakovsky, and D. Ramanan, “Predictive-corrective networks for action detection,” in Proceedings - 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, 2017.

[53] S. Sabour, N. Frosst, and G. E. Hinton, “Dynamic Routing Between Capsules,” no. Nips, 2017.

繼續閱讀