論文筆記之：Attention For Fine-Grained Categorization

2021-11-16 09:24:58

Attention For Fine-Grained Categorization

Google ICLR 2015

　　本文說是将Ba et al. 的基于RNN 的attention model 拓展為受限更少，或者說是非受限的視覺場景。這個工作和前者很大程度上的不同在于，用一個更加有效的視覺網絡，并且在attention RNN之外進行視覺網絡的預訓練。

　　前人的工作在學習 visual attention model 時已經解決了一些計算機視覺問題，并且表明加上不同的attention mechanisms 可以有效的提升算法的性能。但是之前的工作基本都是受限的環境或者基于玩具這種資料集，本文的算法可以處理更加具有挑戰性的因素，如：遮擋等更加複雜的場景。下面這個資料集就給出了案例：

論文筆記之：Attention For Fine-Grained Categorization

　　本文模型架構主要來源于“ Multiple Object Recognition with Visual Attention ”，大體上是一直的，主要有一下幾點不同：

　　1. our model chooses actions for N glimpses and then classifies only after the final glimpse, as opposed to the sequence task in Ba et al. 每一個實驗當中 glimpse的個數是固定的。

　　2. 因為資料集中的圖像是不斷變化的，那麼“foveal” glimpses patches 的大小和輸入圖像最短邊的比例保持一緻。

　　3. 用“vanilla” RNN 來代替 LSTM，在 glimpse n 處，$r_n^{(1)}$ and $r_n^{(2)}$ 都由4096個點構成，當$i =1, 2$時，$r_n(i)$ 和 $r_{n+1}(i)$ 是全連接配接的。

　　4. 本文并非将 glimpse visual core $G_{image}(x_n|W_{image})$ and $G_{loc}(l_n|W_{loc})$的輸出進行元素級相乘，而是将其輸出進行concatenate實作線性組合，然後使其通過一個全連接配接層。

　　最後，然後是最大的不同之處在于：将visual glimpse network $G_{image}(x_n|W_{image})$ 替換為基于"GoogleLeNet" model的更加強大且有效的視覺核心(visual core)。

　　由于是基于他人的架構，是以本文對模型方面的介紹較少，我待會回去解釋下那個引用的文章，結合那篇文章，來了解這個paper。

　留下空白頁，談談自己的感受：

　　我先去看看那個文章，回頭再補回來！等我！！！

論文筆記之：Attention For Fine-Grained Categorization

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希