感覺還是不感覺：輕量級堆疊沙漏網絡（附源代碼下載下傳）

關注并星标

從此不迷路

計算機視覺研究院

感覺還是不感覺：輕量級堆疊沙漏網絡（附源代碼下載下傳）

公衆号ID｜ComputerVisionGzq

代碼位址：https://github.com/jameelhassan/PoseEstimation

計算機視覺研究院專欄

作者：Edison_G

在 AI 繪畫領域，很多研究者都在緻力于提升 AI 繪畫模型的可控性，即讓模型生成的圖像更加符合人類要求。前段時間，一個名為 ControlNet 的模型将這種可控性推上了新的高峰。大約在同一時間，來自阿裡巴巴和螞蟻集團的研究者也在同一領域做出了成果，本文是這一成果的詳細介紹。

人體姿态估計（HPE）是計算機視覺中的一項經典任務，其重點是通過識别人的關節位置來表示人的方位。HPE可以用來了解和分析人類的幾何和運動相關資訊。Newell等人在[Stacked hourglass networks for human pose estimation. In European conference on computer vision, pages 483–499]中提出的堆疊沙漏結構是第一種引人注目的基于深度學習的HPE方法之一，因為在此之前，經典方法主導了HPE文獻。在這項工作中，利用重複的自下而上和自上而下的處理來捕獲來自不同尺度的資訊，并引入中間監督來疊代地細化每個階段的預測。與當時最先進的方法相比，這大大提高了準确性。

然而，HPE是一個實時應用程式，因為它經常被用作另一個子產品的前身。是以，在這種情況下，關注計算效率是至關重要的。在這項研究中，研究者對堆疊沙漏網絡進行了架構和非架構修改，以獲得一個既準确又計算高效的模型。在下面的内容中，研究者提供了對基線模型的簡要描述。原始架構由多個堆疊的沙漏單元組成，每個沙漏單元由四個下采樣和上采樣級别組成。在每個級别上，下采樣是通過殘差塊和最大池化操作來實作的，而上采樣是通過殘留塊和最近鄰插值來實作的。這個過程確定了模型捕捉到局部和全局資訊，這對于連貫地了解全身以獲得準确的最終姿态估計非常重要。在每次最大池化操作之後，網絡分支，以預池化分辨率通過另一個殘差塊應用更多卷積，其結果作為跳躍連接配接添加到沙漏的後半部分中的相應上采樣特征圖。模型的輸出是每個關節的熱圖，該熱圖對每個像素處存在關節的機率進行模組化。預測每個沙漏之後的中間熱圖，并在其上應用損失。此外，這些預測被投影到更多的通道，并作為後續沙漏的輸入，以及目前沙漏的輸入及其特征圖輸出。

設計選擇

Depthwise Separable Convolutions

深度可分離卷積取代了傳統的卷積，以減少卷積運算的參數數量。這是通過使用卷積在空間上單獨在信道上分割卷積來執行的，然後通過逐點卷積聚合信道資訊，如下圖所示：

Dilated Convolution

下面方程中描述的擴張卷積是規則卷積運算的一種變體，其具有在不損失分辨率或覆寫率的情況下指數增加感受野的能力，就像池化運算的情況一樣。

Ghost Bottleneck

[Ghostnet: More features from cheap operations. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition]提出的Ghost瓶頸還通過不同地分割卷積來降低卷積運算的計算複雜度。為了産生固定數量的信道，Ghost瓶頸使用規則卷積輸出一小部分信道，其餘信道通過更便宜的線性運算産生，如下圖所示。這些被級聯和卷積以輸出所需數量的信道。

DiCE Bottleneck

高效網絡的次元卷積（DiCE）單元是Mehta等人提出的一種卷積單元，它折衷了次元卷積和次元融合。卷積運算應用于三個輸入次元（寬度、高度和深度）中的每一個。為了沿着這些次元中的每個次元組合編碼資訊，使用有效的融合單元來組合這些表示。是以，DiCE單元可以有效地捕獲沿着空間次元和信道次元的資訊。

Shuffle Bottleneck

[Shufflenet: An extremely efficient convolutional neural network for mobile devices. In Proceedings of the IEEE conference on computer vision and pattern recognition]中首次提出的混洗單元使用逐點群卷積和信道混洗來提高計算效率并保持準确性。

Perceptual Loss

感覺損失用于比較具有微小差異的相似圖像。在這裡，我們将其用作兩個圖像之間的特征水準均方誤差（MSE）損失，該損失在進階特征圖而不是原始圖像空間處計算損失。這裡的假設是，如果讓第一個沙漏“感覺”第二個沙漏在高特征水準上“感覺”的東西，網絡的整體性能就會提高。下方程中所示的總損失由感覺損失和原始預測損失組成，其中預測損失具有更高的權重。

Residual connection

研究者還将現有的殘差連接配接添加替換為級聯的殘差連接配接，然後進行逐點卷積，以獲得所需數量的信道，稱為ResConcat。還包括從沙漏（頸部）的最窄特征圖到下一個沙漏頸部的殘差連接配接，稱為NarrowRes。

實驗

Architecture of the best model

轉載請聯系本公衆号獲得授權

計算機視覺研究院學習群等你加入！

計算機視覺研究院主要涉及深度學習領域，主要緻力于人臉檢測、人臉識别，多目标檢測、目标跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新架構，我們這次改革不同點就是，我們要着重”研究“。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

計算機視覺研究院

公衆号ID｜ComputerVisionGzq

🔗

感覺還是不感覺：輕量級堆疊沙漏網絡（附源代碼下載下傳）

繼續閱讀

Android系統源代碼下載下傳

Visual C#事件與接口程式設計執行個體

FCKEditor 2.6.4 Asp.net上傳檔案沒有權限解決

Android 大約Dialog彈出視窗

YoloV：目标實時檢測效果依然很棒（附源代碼下載下傳）

開工福利: Yandex源代碼下載下傳

NÜWA：女娲算法，多模态預訓練模型，大殺四方！（附源代碼下載下傳）

MUCNetV2：記憶體瓶頸和計算負載問題一舉突破？分類&檢測都有較高性能（附源代碼下載下傳）

最近幾篇較好論文實作代碼（附源代碼下載下傳）

C# 桌面截圖工具 demo

NÜWA：多模态預訓練模型，大殺四方！（附源代碼下載下傳）

MD5加密,java String 轉變成MD5 String 詳細代碼，工具類Android開發必備

java生成四位随機數，包含數字和字母區分大小寫，特别适合做驗證碼，android開發...

java生成四位随機數，包含數字和字母區分大小寫，特别适合做驗證碼，android開發

《資料結構與算法分析（C++語言描述）》