圖像進行中任意核卷積(matlab中conv2函數)的快速實作。

卷積其實是圖像進行中最基本的操作，我們常見的一些算法比如：均值模糊、高斯模糊、銳化、Sobel、拉普拉斯、prewitt邊緣檢測等等一些和領域相關的算法，都可以通過卷積算法實作,本文則重點描述了任意卷積核的快速實作。

卷積其實是圖像進行中最基本的操作，我們常見的一些算法比如：均值模糊、高斯模糊、銳化、Sobel、拉普拉斯、prewitt邊緣檢測等等一些和領域相關的算法，都可以通過卷積算法實作。隻不過由于這些算法的卷積矩陣的特殊性，一般不會直接實作它，而是通過一些優化的手段讓計算量變小。但是有些情況下卷積矩陣的元素值無甚規律或者有特殊要求，無法通過正常手段優化，這個時候隻能通過原始的方式實作。是以，如何快速的實作圖像的任意卷積矩陣操作也有必要做适當的研究。

目前，通過友人共享或自己搜尋找到的一片關于任意核算法優化的文章有： Reshufﬂing: A Fast Algorithm for Filtering with Arbitrary Kernels，改文章稱能夠提高原始程式速度的40%左右，但是原始的程式是如何寫的也還不明白。

在matlab中有幾個函數都與圖像卷積有關，比如imfilter就可以實作卷積，或者 conv2也行，他們的速度都是相當快的，比如3000*3000的灰階圖，卷積矩陣大小為15*15，在I5的CPU上運作時間隻要170ms左右，相當的給力。

在Celery的部落格中，也提到了他的優化後的conv2和matlab相當甚至快于matlab，詳見http://blog.csdn.net/celerychen2009/article/details/38852105。

由于matlab的代碼中使用到了IPL庫進行加速，目前我寫的Conv2函數還無法做到和其相當，對于任何核速度約為matlab的一半。

簡單的記錄下我在做卷積過程中用到的優化吧。

原始的卷積的實作需要四重循環，簡單的表達如下：

for (Y = 0; Y < Height; Y++)
{
    for (X = 0; X < Width; X++)
    {
        Index = .....;
        Sum = 0;
        for (XX = 0; XX < ConvW; XX++)
        {
            for (YY = 0; YY < ConvH; YY++)
            {
                Index1 = ..... ;
                Index2 = ..... ;
                Sum += Conv[Index1] * Pixel[Index2];
            }
        }
        Dest[Index] = Sum / Weight;
    }
}

　　當卷積矩陣較大時，計算量将會很大，而且由于程式中的記憶體通路很頻繁，cache miss現象比較嚴重，是以效率極為低下。

我的優化方法主要包括以下幾個方面：

一：使用SSE進行乘法計算，由于SSE可以一次性進行4個單精度浮點數的計算，是以可以有明顯的速度提升。

二：通過适當的處理方式，對每個取樣點周邊的卷積矩陣内的元素進行集中，使得每移動一個像素點不會需要從記憶體中進行大量的搜尋工作。

具體來說實作過程如下：

1、為了使用SSE的優勢，首先将卷積矩陣進行調整，調整卷積矩陣一行的元素個數，使其為不小于原始值的4的整數倍，并且讓新的卷積矩陣的記憶體布局符合SSE相關函數的16位元組對齊的要求。

　　實作代碼如下：

float *Conv16 = (float *)_mm_malloc(PadConvLine * ConvH * sizeof(float), 16);                        //    儲存16位元組對齊的卷積矩陣，以友善使用SSE
                                                
for(Y = 0; Y < ConvH; Y++) 
{
    memcpy (Conv16 + Y * PadConvLine, Conv->Data.F + Y * ConvW , ConvW * sizeof(float));            //    複制卷積矩陣的資料
    memset(Conv16 + Y * PadConvLine + ConvW, 0, (PadConvLine - ConvW) * sizeof(float));                //    把備援部分的卷積資料設定為0
}

其中PadConvLine = Pad4(ConvW) 以及Pad4的原型為： #define Pad4(bits) (((bits) + 3) / 4 * 4)；

注意_mm_malloc函數配置設定的記憶體中的值是随機值，對于擴充的部分一定要填充0，否則就會破壞卷積的結果。

那麼如果我們也同時獲得了需要被卷積的部分資料的話（卷積核肯定和卷積矩陣一樣大小，且也應該是16位元組對齊的），可以用如下的SSE的代碼進行乘法計算：

float MultiplySSE(float *Kernel, float *Conv, int Length)
{
    int Block;  
    const float *Data;                        // 将SSE變量上的多個數值合并時所用指針.
    float Sum = 0;
    if (Length > 16)                        //    可以進行四次SSE計算，測試表明，這個還是快些的    
    {
        const int BlockWidth = 4 * 4;        // 塊寬. SSE寄存器能一次處理4個float，然後循環展開4次.
        Block = Length / BlockWidth;        // 塊數.    
        float *KernelP = Kernel, *ConvP = Conv;                // SSE批量處理時所用的指針.
        
        __m128 Sum0 = _mm_setzero_ps();         // 求和變量。SSE賦初值0
        __m128 Sum1 = _mm_setzero_ps();
        __m128 Sum2 = _mm_setzero_ps();
        __m128 Sum3 = _mm_setzero_ps();

        for(int I = 0; I < Block; I++)
        {
            Sum0 = _mm_add_ps(Sum0, _mm_mul_ps(_mm_load_ps(KernelP), _mm_load_ps(ConvP)));                    // SSE單精浮點緊縮加法
            Sum1 = _mm_add_ps(Sum1, _mm_mul_ps(_mm_load_ps(KernelP + 4), _mm_load_ps(ConvP + 4)));
            Sum2 = _mm_add_ps(Sum2, _mm_mul_ps(_mm_load_ps(KernelP + 8), _mm_load_ps(ConvP + 8)));
            Sum3 = _mm_add_ps(Sum3, _mm_mul_ps(_mm_load_ps(KernelP + 12), _mm_load_ps(ConvP + 12)));
            KernelP += BlockWidth;
            ConvP += BlockWidth;
        }
        
        Sum0 = _mm_add_ps(Sum0, Sum1);    // 兩兩合并(0~1).
        Sum2 = _mm_add_ps(Sum2, Sum3);    // 兩兩合并(2~3).
        Sum0 = _mm_add_ps(Sum0, Sum2);    // 兩兩合并(0~2).

        Data = (const float *)&Sum0;
        Sum = Data[0] + Data[1] + Data[2] + Data[3];

        Length = Length - Block * BlockWidth;            // 剩餘數量.
    }
    if (Length != 0)
    {
        const int BlockWidth = 4;                        //    程式已經保證了數量必然是4的倍數 
        Block = Length / BlockWidth;        
        float *KernelP = Kernel, *ConvP = Conv;                
        __m128 Sum0 = _mm_setzero_ps();        

        for(int I = 0; I < Block; I++)
        {
            Sum0 = _mm_add_ps(Sum0, _mm_mul_ps(_mm_load_ps(KernelP), _mm_load_ps(ConvP)));        
            KernelP += BlockWidth;
            ConvP += BlockWidth;
        }

        Data = (const float *)&Sum0;
        Sum += Data[0] + Data[1] + Data[2] + Data[3];
    }
    return Sum;
}

　　當卷積矩陣（擴充後）的元素數量大于16時，我們采用了4路并行的SSE乘法實作，我在I3的CPU上測試時，2路SSE和4路SSE已經沒有啥大的差別了，而在I5的CPU上則4路還是有較為明顯的提高，是以采用4路SSE同時運作。當然1路SSE肯定還是比2路慢。另外，如果元素的數量少于16或者大于16但不能被16整除，那麼餘下的部分由于先前的擴充，剩餘元素數量也肯定是4的倍數，是以可以用單路的SSE實作。這也是編碼上的技巧。

2、前面提到了需要被卷積的部分資料，這部分如何快速的擷取呢。觀察最原始的4重循環，其内部的2重即為擷取需要被卷積的部分，但是這裡其實有很多問題。第一：由于卷積取樣時必然有部分取樣點的坐标在原始圖像的有效範圍外，是以必須進行判斷，耗時。第二：同樣為了使用SSE,也必須把取樣的資料放在和擴充的卷積矩陣一樣大小的記憶體中。這裡我先貼出我的代碼在進行解釋具體的實作：

IS_RET __stdcall Conv2(TImage *Src, TMatrix *Conv, TImage *Dest, EdgeMode Edge)
{
    if (Src == NULL || Dest == NULL || Conv == NULL) return IS_RET_ERR_PARA;
    if (Src->Width != Dest->Width || Src->Height != Dest->Height || Src->BitCount != Dest->BitCount || Src->Stride != Dest->Stride) return IS_RET_ERR_PARA;
    if (Src->Scan0 == NULL || Dest->Scan0 == NULL || Conv->Data.F == NULL) return IS_RET_ERR_MEM;
    if (Conv->Width < 1 || Conv->Height < 1) return IS_RET_ERR_PARA;
    
    int Width = Src->Width, Height = Src->Height, Stride = Src->Stride;
    int ConvW = Conv->Width, ConvH = Conv->Height;
    unsigned char *PtSrc = Src->Scan0, *PtDest = Dest->Scan0;


    if (Src->BitCount == 24)
    {

    }
    else
    {
        int Left = ConvW / 2, Top = ConvH / 2, Right = ConvW - Left - 1, Bottom = ConvH - Top - 1, ExpHeight = Height + ConvH - 1;        //    注意核中心那個元素不用擴充，比如核的寬度為3，則隻要左右各擴充一個像素就可以了
        int PadConvLine = Pad4(ConvW), Length = PadConvLine * ConvH;
        int X, Y, IndexD, IndexE, IndexK, ExpStride;
        float *CurKer, Inv, Sum = 0;
        unsigned char *PtExp, *PtDest;

        TImage *Expand;
        IS_RET Ret = GetPadImage(Src, &Expand, Left, Right, Top, Bottom, Edge);                                //    得到擴充後的資料，可以提速和友善程式設計，但是多占用一份記憶體
        if (Ret != IS_RET_OK) return Ret;
        
        PtExp = Expand->Scan0; PtDest = Dest->Scan0; ExpStride = Expand->Stride;
        
        for (X = 0; X < ConvH * ConvW; X ++) Sum += Conv->Data.F[X];
        Inv = (Sum == 0 ? 1: 1 / Sum);                                                                        //    如果卷積舉證的和為0，則設定為1

        float *Conv16 = (float *)_mm_malloc(PadConvLine * ConvH * sizeof(float), 16);                        //    儲存16位元組對齊的卷積矩陣，以友善使用SSE
        float *Kernel = (float *)_mm_malloc(PadConvLine * ExpHeight * sizeof(float), 16);                    //    儲存16位元組對齊的卷積核矩陣，以友善使用SSE
                                        
        for(Y = 0; Y < ConvH; Y++) 
        {
            memcpy (Conv16 + Y * PadConvLine, Conv->Data.F + Y * ConvW , ConvW * sizeof(float));            //    複制卷積矩陣的資料
            memset(Conv16 + Y * PadConvLine + ConvW, 0, (PadConvLine - ConvW) * sizeof(float));                //    把備援部分的卷積資料設定為0
        }
        
        for (Y = 0; Y < ExpHeight; Y++)
        {
            IndexE = Y * ExpStride;
            CurKer = Kernel + Y * PadConvLine;                        //    計算第一列所有像素将要取樣的卷積核資料
            for (X = 0; X < ConvW; X++)
            {
                CurKer[X] = PtExp[IndexE++];
            }
        }
        for (X = 0 ; X < Width ; X ++)
        {
            if (X != 0)                                                //    如果不是第一列，需要更新卷積核的資料
            {
                memcpy(Kernel, Kernel + 1, (PadConvLine * ExpHeight - 1) * sizeof(float));    //    往前移動一個資料
                IndexK = ConvW - 1 ;
                IndexE = IndexK + X;
                for (Y = 0; Y < ExpHeight; Y++)
                {
                    Kernel[IndexK] = PtExp[IndexE];        //    隻要重新整理下一個元素
                    IndexK += PadConvLine;
                    IndexE += ExpStride;
                }
            }
            
            CurKer = Kernel;    IndexD = X;
            for (Y = 0; Y < Height; Y ++)                            //    沿列的方向進行更新
            {
                PtDest[IndexD] = Clamp((int)( MultiplySSE(Conv16, CurKer, Length) * Inv + 0.5));        //    直接把函數放在這裡也沒有啥提速的，注意改函數不會被内聯的
                CurKer += PadConvLine;
                IndexD += Stride;
            }
        }
        _mm_free(Conv16);
        _mm_free(Kernel);
        FreeImage(Expand);
        return IS_RET_OK;
    }
}

對于第一個問題，解決的方式很簡答，即用空間換時間，建立一副（Width + ConvW - 1, Height + ConvH -1)大小的圖像，然後四周的ConvW及ConvH的像素用邊緣的值或者邊緣鏡像的值填充，正中間的則用原來的圖複制過來，這樣操作後進行取樣時不再原圖取樣，而在這福擴充的圖中取樣，就避免了坐标判斷等if語句的跳轉耗時了，上GetPadImage即實作了改功能。

第二個問題則需要有一定的實作技巧，我們配置設定一塊PadConvLine * (Height + ConvH - 1) 大小的記憶體，然後計算原圖第一列像素串聯起來的需要卷積的部分的資料，這一部分代碼如上述44-52行所示。有了這樣的資料，如果需要計算第一列的卷積結果，則很簡單了，每跳過一列則把被卷積的資料起點增加PadConvLine個元素，在調用上述MultiplySSE函數獲得卷積結果。接着則計算第二列像素的卷積值，此時需要整體更新這一列像素串聯起來的需要被卷積的資料，更新也很簡單，就是把原來的資料整體向左移動一個像素，這個可以用memcpy快速實作，然後在填充入新進來的那個元素，就ok了，接着就是再次調用MultiplySSE函數，如此重複下去。

經過編碼測試，對于3000*3000的灰階圖，15*15的核在I5的CPU上的測試平均結果為360ms,比matlab的慢了一半。

最後說明一點，很多人都說用FFT可以快速的實作卷積，并且是O(1)的，我比較同意後半句，但是前面半句是絕對的有問題的，至少在核小于50*50時，FFT實作的卷積不會比直接實作塊。要知道FFT的計算量其實是很大的。

****************************作者： laviewpbt 時間： 2014.11.27 聯系QQ: 33184777 轉載請保留本行資訊**********************

圖像進行中任意核卷積(matlab中conv2函數)的快速實作。

繼續閱讀

YOLOv7官方開源 | Alexey Bochkovskiy站台，精度速度超越所有YOLO，還得是AB

用OpenCV實作超輕量的NanoDet目标檢測模型！

鋼鐵平面焊接的缺陷檢測案例【附代碼】

從0學CV：深度學習圖像分類模型綜述

[PyTorch]利用torch.nn實作二維卷積完成車輛分類實驗任務（一）模型的建構（二）實驗結果

torch.nn.Conv2d詳解

通俗易懂的解釋Sparse Convolution過程

Dual Attention Network for Scene Segmentation論文閱讀&翻譯論文位址AbstractIntroductionDual Attention NetworkExperiments

卷積神經網絡（CNN）綜述

4.卷積神經網絡-第一周卷積神經網絡

基于卷積神經網絡的貓狗識别實驗目的環境配置識别貓狗執行個體

正面剛CNN，Transformer居然連犯錯都像人類

目标檢測系列（IV）：YOLO V1、YOLO V2、YOLO V3

基于改進FCOS的鋼帶表面缺陷檢測

HDU 1402 A * B Problem Plus