天天看點

【論文筆記】U-Net模型-用于醫學圖像分割的神經網絡模型

本文主要是對 U-Net 論文中主要内容的提煉,中間加入了一些自己的了解,有些地方自己不是很懂,是以直接采用了直譯的方式。建議大家去閱讀原文。

U-Net 的主要優點是可以用更少的訓練樣本達到更好的效果,并且速度很快,這對于訓練資料較少的醫學圖像處理相關的問題來說是十分重要的。U-Net論文位址:U-Net論文

一、前人工作

文章首先總結了前人工作的一些特點,前人的工作(主要是一些卷積神經網絡模型)有兩大局限,第一是受制于可利用的訓練樣本不夠多的問題,第二是網絡模型太過複雜而導緻的訓練速度較慢。卷積神經網絡模型主要用于分類任務,而對于醫學圖像處理這類分類問題就要求對每個像素進行分類(是前景還是背景),也就是所謂的定位(localization)問題。

後來有人提出了滑動視窗(sliding-window)的方法,也就是每次把目前像素的相鄰像素,即一個視窗作為輸入。滑動視窗的好處是可以讓網絡實作定位(即對每個像素進行分類),同時每個滑動視窗都相當于一個訓練樣本,這樣增加了可利用的訓練樣本的數量。當然了這種方式也存在着兩個問題,第一是因為要對不同大小、不同位置的視窗進行周遊,是以訓練速度會很慢;第二是因為視窗之間存在重疊,是以有點備援了,換句話說,如果想要得到更好的精度,就要增加視窗的數量和大小,而如果要提高訓練速度就就必須減少視窗的數量和大小,這是一對沖突。

二、U-Net 技術要點

【論文筆記】U-Net模型-用于醫學圖像分割的神經網絡模型

U-Net 之是以叫這個名字是因為其網絡模型的形狀類似于字母 ‘U’ 。U-Net 的結構包括一個收縮路徑(contracting path)和一個擴張路徑(expanding path),前者用來捕獲上下文資訊,後者用來精确定位。這兩者又分别可看作是一個編碼器和一個解碼器。

由于重疊平鋪(overlap-tile)政策是以使得模型可以處理任意大小的輸入圖檔。由于圖像邊界區域的像素上下文會缺失,是以可以通過對輸入圖像進行鏡像來推斷。

為了解決訓練資料較少的問題,在該模型中使用了大量的資料增強,比如對已有的訓練圖像進行塑性變形。

U-Net 這篇論文當時是針對于生物醫學圖像進行分割的,可以了解為對含有很多細胞的圖像進行分割。是以就存在一個同類相鄰物體(比如相鄰的細胞)之間的分割問題,為此提出了一個權重損失(weighted loss),在相鄰細胞的分割标簽會在損失函數中有個較大的權重。

三、U-Net 網絡結構

前面說過 U-Net 由一個收縮路徑和一個擴張路徑組成,收縮路徑中的基本組成元素是兩個 3 × 3 3\times3 3×3 的無填充卷積,每個卷積後都跟着一個 ReLU 激活函數,然後是一個 2 × 2 2\times2 2×2 的步長為2的最大池化操作,以上步驟重複多次。每個池化操作後通道數就會加倍。擴張路徑與之大體相反,基本元素是一個 2 × 2 2\times2 2×2 的卷積(up-convolution),拼接上收縮路徑中對應的特征圖(即跳躍連接配接),然後是兩個 3 × 3 3\times3 3×3 的卷積操作,每個卷積後面跟着一個 ReLU 激活函數。以上步驟重複多次,在擴張路徑的最後一層有一個額外的 1 × 1 1\times1 1×1 的卷積操作,這個卷積的目的是讓輸出映射到想要的大小。

繼續閱讀