一、什麼是AI視訊智能分析?
視訊智能分析已滲透到生活生産中的方方面面。從生活中的刷臉支付、停車場的車牌識别、工廠園區的煙火識别、工地的工裝安全帽識别到工廠中的房間零部件智能檢測,視訊智能分析無處不在。簡單來說,AI視訊智能分析是通過人工智能技術處理和分析視訊資料的方法。
圖1. AI視訊智能分析示意圖
如圖1所示,監控視訊與媒體視訊經AI視訊分析引擎分析處理,輸出對象、屬性、行為以及事件。
對象分析:視訊分析的重要任務是結構化目标的識别,包括人、車、物的位置與類别資訊,結合業務系統産生價值應用。如人員電子圍欄、車流量統計等應用。
屬性分析:屬性是被測目标顔色、大小、長寬、位置等描述性資訊。可靠穩定的屬性資訊可産生極具價值的業務應用。如鋼廠闆材的長寬測量、闆材的位置追蹤等應用。
行為分析:行為是被測目标在特定時間段内産生的動作以及表現出的行為等描述性資訊。與屬性分析相比時序特性更明顯,是以,在技術實作上也更加複雜。可應用至異常行為動作或動作流程檢測中。如打架檢測、摔倒檢測、操作規範檢測中。
事件分析:事件是對象、屬性、行為等要素的綜合。事件分析為強業務導向分析,通過AI視訊分析引擎建立端到端的事件智能分析。如跨模态視訊檢索,通過輸入對象、屬性、行為等文字性描述,檢索目标視訊。
二、AI視訊智能分析有那些技術?
圖2. 視訊内容分析技術
1、目标檢測技術
目标檢測任務是識别目标類别并定位目标在圖像中位置。是以,其解決的問題為是什麼?在哪?
基于深度學習的目标檢測發展近十年,成果頗豐,其中代表性方法包括基于anchor的one stage與two stage方法。下面介紹two stage經典模型Faster-RCNN以及one stage經典模型Yolov5。
圖3. 目标檢測示意圖
一階段與兩階段的差別在于是否需要生成Proposal box。兩階段模型首先通過RPN網絡生成無類别的Proposal box,再經模型分類Proposal box類别并精确回歸Proposal box坐标;一階段模型通過anchor機制直接預測目标類别與目标坐标。兩者差別如圖4所示。
圖4. 兩階段與一階段方法架構
(1)Faster-RCNN
Faster-RCNN網絡結構如圖5所示,分為stage1與stage2。stage1主要任務是依靠rpn網絡生成proposal boxes; stage2主要是任務是對proposal box進行分類與精确定位。下面介紹其細節。
圖5. Faster RCNN網絡示意圖
第一階段:原始圖像經backbone提取特征并輸出feature map。backbone為vgg16,經16倍下采樣并後接512個3*3*512的filters輸出feature map。feature map的每個點作為anchor point并以此産生3種比例與3種大小的anchor box,是以,每個feature map上的每個點處負責預測9種anchor的類别與偏移量。為此,在feature map後接18個1*1*512的filters,提取18種特征,預測9個anchor為前景或背景的機率;在feature map後接36個1*1*512的filters,提取36種特征,預測9個anchor的4個坐标。我們在feature map的每個點上配置設定了9個anchor boxes。為訓練RPN網絡中的分類(二分類)與回歸,需要對每個anchor進行标注,即标注每個anchor box為1(前景)或0(背景)以及每個anchor box的ground truth的坐标。對于一個60*40的feature map來說産生的anchor box為60*40*9=21.6k個,去除邊界處越界的框,并經過nms處理剩餘6k左右。最後通過每個anchor box的score得分排序篩選出128個前景與128個背景anchor box,利用這256個anchor box進行RPN訓練。正樣本的選取條件為:a) 與groundtruth具有最大IOU的anchor box;b)與任意的groudtruth的IOU大于0.7的anchor box。滿足a)或b)任意一個條件則可被選為正樣本。負樣本的選取條件為:與所有的groundtruth的IOU均小于0.3。 IOU在0.3-0.7之間的anchor box忽略不參與訓練。經過RPN網絡訓練,原始圖像經RPN網絡會輸出256個proposal。
圖6. RPN網絡結構圖
圖7. Faster RCNN網絡結構圖
- 第二階段:原始圖像經RPN網絡産生一系列proposal boxes。這些proposal boxes會在backbone所産生的feature map上提取相應特征,由于每個proposal box的大小不同,後續網絡連接配接了全連接配接層是以要求每個proposal box的輸出大小恒定,為此對于每個proposal box後接ROI Pooling子產品将每個proposal box的輸出轉換為7*7*512後接全連接配接層用于proposal box的分類與坐标回歸。
其訓練過程分為四步:
第一步:單獨訓練RPN網絡,使用ImageNet分類任務的權重對Backbone CNN網絡進行初始化。并且端到端微調用于生成region proposal(整個RPN網絡權重均更新)。
第二步:單獨訓練Fast RCNN網絡,使用ImageNet分類任務的權重對Backbone CNN網絡進行初始化,使用RPN生成的proposal作為輸入訓練Fast RCNN網絡(整個Fast RCNN網絡權重均更新)。
第三步:微調RPN網絡,利用Fast RCNN網絡對RPN網絡與Fast RCNN網絡的共享卷積層進行初始化,同時固定共享卷積層,隻微調RPN網絡獨有的部分,完成訓練得到最終的RPN網絡(隻更新RPN網絡獨有的部分)。
第四步:微調Fast RCNN網絡,利用第三步模型對Fast RCNN的共享卷積層進行初始化,同時固定共享卷積層,隻微調Fast RCNN網絡獨有的部分,完成Fast RCNN網絡訓練(至更新Fast RCNN網絡獨有部分)。
經過以上四步,RPN與Fast RCNN共享卷積層保持一緻,并獨自享有各自的網絡部分,完成region proposal生成與Fast RCNN目标檢測。
總的來說Faster RCNN的核心為RPN網絡,解決了傳統selective search在候選框生成上的速度問題。并成為兩階段目标檢測模型的典範。
(2)Yolov5
圖8. yolov5結構示意圖
圖9. yolov5訓練與推理
yolov5的網絡結構示意圖如圖8所示,分為輸入層、特征提取層、特征融合層、檢測層以及輸出層。
特征提取層:采用CSP-Darknet53作為Backbone。提取1/8,1/16以及1/32圖像特征。其核心主要由CBS算子、C3算子以及SPPF算子構成。
特征融合層:采用FPN以及PAN作為特征融合層。YOLO系列将Faster-RCNN網絡結構中的RPN層進行了改造使其能夠直接預測目标類别而不是預測是否為前景。Faster-RCNN是在下采樣16倍之後的特征圖上做Region Proposal的預測。假如統一采用下采樣16倍的特征圖直接預測目标會導緻小目标類别難以預測,原因是16倍下采樣率網絡層數較淺,用于分類的語義特征不夠豐富。而如果為提高小目智語義特征繼續下采樣特征圖,會導緻小目标類别與位置預測精度下降,原因是小目标在原圖中占的像素少,下采樣倍數過大導緻在最終的特征圖中占的像素非常少,甚至小于1*1(比如20*20下采樣32倍為0.625*0.625),是以特征圖中用于預測的像素點可能包含其他物體或背景的特征導緻類别與坐标預測精度下降。同時對于大目标的預測,深層特征能夠提取豐富的語義特征用于其類别判定,但随着網絡層數的加深,網絡提取的特征感受野大、整體性強,但是局部細節資訊不準确,而這些局部的細節特定包含着物體的位置資訊,是以,網絡層數的加深對于大目标的檢測位置資訊不夠準确。為此,YOLO系列引入了多尺度檢測層FPN,下采樣率大的檢測層感受野大,用于檢測大目标;下采樣率小的檢測層感受野小,用于檢測小目标。下采樣率小的淺層特征細節與位置資訊豐富;下采樣率大的深層特征整體與語義資訊豐富。在檢測小目标時,将深層特征進行上采樣并與淺層特征在通道方向上進行疊加;在檢測大目标時,将融合後的淺層特征直接下采樣并與深層特征在通道方向上進行疊加。特征融合層充分利用深層網絡語義特征用于識别;充分利用淺層網絡位置特征用于定位。
檢測層:YOLO在檢測層上采用了三種尺度,用于檢測大、中、小三種不同尺寸的目标。在三個檢測層中,每個檢測層特征圖上的每個點配置設定三個不同形狀尺寸的anchor,并由檢測層在每個點處預測物體類别、物體相對于每個anchor的偏移量,物體相對于anchor的寬與高。對于每個點預測3*(80+4+1)=255種元素。是以,對于20*20,40*40以及80*80的三種檢測頭,預測輸出為8400*3*(80+4+1)=25200*85。其中,80表示80類目标,4為目标相對于anchor中心點的偏移量x,y、目标寬與anchor寬的比例因子w,目标高相對于anchor高的比例因子h,1表示目标置信度。
圖10. yolov5s-6.0網絡結構圖
yolov5的訓練與推理過程如下:
訓練:
a. 定義網絡結構yolov5s,m,l,x并擷取每張圖檔的groundtruth;
b. 根據anchor與groundtruth确定正負樣本并擴充正樣本;
c. 根據正負樣本、網絡預測值pred以及groundtruth計算loss;
d. 反向傳播更新網絡參數,設定訓練輪數與超參數,完成網絡訓練,儲存網絡參數。
推理:
a. 加載網絡模型與權重,輸入預測圖檔;
b. 網絡前向傳播,擷取預測結果25200*85;
c. 根據置信度門檻值0.45過濾部分結果,根據nms對預測結果再次過濾;
d. 輸出目标檢測結果x,y,w,h,c,p。
有關正負樣本的确定方法如下:
yolov5的正負樣本确定方法不同于Faster-RCNN中的RPN網絡以及yolov3中的基于IOU劃分方法。其依據的規則為groundtruth與anchor的寬高比,同時一個groundtruth可由多個anchor預測,一方面增加了目标召回的幾率,另一方面增加了正樣本數量緩解了正負樣本不均衡問題。
圖11. yolov5跨分支預測
圖12. yolov5跨grid以及跨anchor預測
跨分支預測:
不同于yolov3,一個groundtruth隻能由一個anchor預測,即也隻能通過一個分支預測。yolov5可以通過三個分支同時對目标預測,優勢如上述。如圖11所示,一個groundtruth最多可由三個分支的anchor同時預測,隻要其滿足正樣本的條件。
跨grid預測:
yolov5為擴增正樣本,以負責預測目标的grid為中心,從其上、下、左、右四個方向選擇兩個距離groundtruth中最近的兩個grid也負責預測該目标。這樣預測groundtruth的grid由1個變為3個。
跨anchor預測:
yolov5采用基于寬高比的比對政策。記groundtruth寬高與anchor的寬高比為r1, anchor的寬高與groundtruth寬高記為r2。在r1與r2中選擇大值記為r。若r<4,則該anchor為正樣本。是以,對于1個groundtruth, 與之比對的anchor最多為3*3*3=27個。
例如:圖12中與紅色的groundtruth比對的anchor有branch1_grid1_anchor1,branch2_grid1_anchor等。
2、目标跟蹤技術
目标跟蹤的任務是關聯時序目标身份,簡單的說是目前目标是上一時刻的哪個目标?是以,其解決的主要問題為目标資料關聯與比對。目标跟蹤技術應用領域廣泛,小到目标計數統計、大到軍事精确制導。
如圖13所示,時刻1檢測出兩個目标,并記為目标a,目标b;時刻2檢測出兩個目标,并記為目标a',目标b'。跟蹤即判斷a'是上一時刻的a還是b,同理判斷b'是上一時刻的a還是b。這樣對于每個目标配置設定一個唯一id, 相同的目标共享同一id,随着時間推移,相同的目标在時間上與空間上被關聯到了一起,每個目标形成一條軌迹。據此可進行業務功能的應用與分析。
圖13. 目标追蹤示意圖
對于目标追蹤其核心問題為資料的關聯比對。是以,需要設計一個判斷準則來評價兩個目标是否相似。總的來說這些方法主要包括:
a. 距離相似性度量
圖14. 距離相似性度量示意圖
距離相似性度量主要以位置、大小、形狀、速度等名額,采用歐式距離或馬氏距離評價兩目标的相似性。對于量綱一緻且變量之間獨立無相關性的可采用歐式距離。反之,采用馬氏距離。
b. 外觀相似性度量
圖15. 特征相似性度量示意圖
外觀相似性度量采用目标外觀特征評價相似性,這些特征主要通過神經網絡提取,例如,deepsort提取每個目标的128維特征并采用餘弦距離度量其相似性。
c. 位置相似性度量
圖16. 位置相似性度量示意圖
位置相似性度量的另一常用名額為IOU(交并比),兩個目标重疊的區域與兩個目标集合的區域的比值,可評價兩個目标的重疊區域,且為無量綱的名額範圍0-1,完全重疊為1,無重疊為0。
為熟悉目标追跟實作原理,下面介紹目标跟蹤的經典算法deepsort。在介紹之前需了解其前身sort算法。
(1)sort
sort全稱simple online and realtime tracking,是多目标跟蹤算法(mot)。核心思想:基于目标檢測結果,采用卡爾曼濾波算法與匈牙利算法關聯前後目标,實作跟蹤。具體算法流程如下:
圖17. sort算法流程圖
概要流程:檢測目前幀目标->目前幀目标與上一幀軌迹比對->預測下一幀軌迹。
詳細算法整體流程如下:
第一步:利用第一幀檢測到的Detections建立對應的Tracks,初始化卡爾曼濾波,并基于該幀的Tracks預測下一幀Tracks。
第二步:檢測目前幀的Detections并與上一幀預測的Tracks進行IOU Match。得到比對代價矩陣Cost Matrix。
第三步:匈牙利算法根據cost matrix對目前幀所有目标的檢測框與上一幀預測得到的軌迹框的比對。比對結果有三種。第一種,檢測框與軌迹框比對得到Matched Tracks;第二種檢測框未比對到軌迹框得到Unmatched detections;第三種,軌迹框未比對到檢測框得到Unmatched Tracks。
第四步: 對Matched Tracks更新卡爾曼濾波并預測下一幀Tracks;對Unmatched Detections配置設定新的Tracks并初始化卡爾曼濾波,預測下一幀Tracks;對Unmatched Tracks直接删除。
第五步: 重複第二步至第四步,至視訊結束。
sort算法有什麼問題?
sort算法隻利用了位置、大小、速度等資訊的相似性度量,速度快是其優勢。但是,其存在同一目标id,切換頻繁的問題,即同一目标在跟蹤過程中會跟丢。這主要由以下原因造成:
第一,目标長時間遮擋,重新出現,造成跟蹤丢失。原因,一方面目标經遮擋後重新出現的運動資訊與遮擋前預測的運動資訊存在差異,無法比對;另一方面,Unmathed Tracks無保留機制已經被删除,重新出現隻能重新配置設定New Tracks.
第二,目标漏檢,重新檢出,ID重新配置設定。由于檢測器的性能,目前幀目标未檢出,上一幀Tracks被判為Unmatched Tracks被删除,重新檢測的目标隻能重新配置設定新的ID,造成目标跟丢。
(2)deepsort
為解決長時間遮擋跟丢的問題,提出了deepsort算法。deepsort全稱simple online realtime tracking with a deep association metric。相比于sort主要引入了外觀相似性度量解決長時間遮擋跟丢問題。
在sort基礎上增加的部分:Matching Cascade, Tracks Confirmed機制。整體流程圖如下:
圖18. deepsort算法流程圖
概要流程:檢測目前幀目标->目前幀目标與上一幀軌迹比對(Matching Cascade& IOU Match)->預測下一幀軌迹。
詳細算法整體流程如下:
第一步:利用第一幀檢測到的Detections建立對應的Tracks,并初始化卡爾曼濾波,預測下一幀的Tracks。第一幀預測的Tracks狀态為Unconfirmed狀态,Tracks連續3幀比對到Detections才轉化為Confirmed狀态。
第二步:檢測目前幀的Detections,并與上一幀的Tracks進行IOU Matching,計算兩者代價矩陣Cost Matrix。
第三步:對于Unconfirmed Tracks, 根據Cost Matrix以及匈牙利算法,對Detections與Tracks進行比對。比對結果有三種,第一種,Detections與Tracks完成比對得到Matched Tracks;第二種,Detections未比對到Tracks,這時為Detections配置設定一個新的Tracks;第三種Tracks未比對到Detections,此時由于Tracks一次都沒有比對到Detections,是以,為Unconfirmed狀态,直接删除該Tracks。對于Matched Tracks更新卡爾曼濾波,并預測下一幀Tracks;對于New Tracks初始化卡爾曼濾波并預測下一幀Tracks。
第四步:反複進行第二步與第三步,至出現Confirmed Tracks或視訊結束。
第五步:通過卡爾曼濾波預測下一幀的Confirmed Tracks與Unconfirmed Tracks。對于Confirmed Tracks,執行Matching Cascade級聯比對Detections與上一幀Tracks。級聯比對政策:外觀資訊歐式距離與運動資訊馬氏距離的權重來評價兩目标的相似性。對于外觀資訊,每次Tracks與Detections比對上,都會儲存比對的Detections的外觀特征,每個Tracks最多包含100個最新的曆史外觀特征,目前幀Detections與每個Tracks的100個曆史外觀特征進行歐式距離計算,并取最小的距離作為目前Detection與該Track的外觀相似度。對于運動資訊,目前幀Detections與上一幀Tracks計算馬氏距離。對Detections與Tracks所計算的外觀相似度與運動資訊馬氏距離的權重和作為Cost Matrix。在實際的操作中,代價矩陣的計算隻利用了外觀相似度。根據匈牙利算法對Detections與Tracks進行比對。對比對結果,通過Detections與Tracks的外觀相似度與馬氏距離的乘積門限門檻值進行過濾。注意:Confirmed Tracks按照失聯比對的次數從少到多與Detections進行比對,這樣做是因為,失聯少的Tracks為最新的Tracks與Detections比對成功的可能性更大。
第六步:執行完成Matching Cascade輸出三種狀态,第一種,Detections與Tracks完成比對得到Matched Tracks;第二種,Detections未比對到Tracks得到Unmatched Detections;第三種,Tracks未比對到Detections得到Unmatched Tracks。對于Unmatched Detections與Unmatched Tracks以及Unconfirmed Tracks輸入IOU Match再次進行比對,輸出三種比對結果。第一種,Matched Tracks,進入下一個循環;第二種,Unmatched Detections,重新配置設定New Tracks;第三種,Unmatched Tracks,對于Unconfirmed Tracks直接删除,對于Confirmed Tracks判斷其失聯比對的次數max_age,如果失聯比對次數大于30次(可定義其他值),認為目标已經從視野消失,将目标軌迹進行删除;如果失聯比對次數小于等于30次(可定義其他值),對失聯比對次數+1,進入下一輪比對。
第七步:反複進行第五步至第六步至視訊結束。
什麼是Matching Cascade?
所謂Matching Cascade即級聯比對。通過外觀相似性度量與運動資訊的馬氏距離度量,評價檢測目标框與軌迹框的相似性。比如跟蹤的行人被障礙物長時間遮擋,當行人走出遮擋物重新出現時,所處的位置與進入遮擋物前的位置可能差異較大,即IOU很低或者為0,IOU Match是比對不上的。但是,進入遮擋物前後的行人一般在外表特征上不會發生明顯變化,即兩者的外表特征相似度高,利用Matching Cascade可以對該種情況的行人進行召回。
3、動作行為識别技術
動作行為識别是預測目标在目前時刻或一段時間内的狀态。該技術廣泛應用至動作識别、流程規範化識别以及視訊分類等場景。如校園打架暴力檢測、工廠勞工操作流程規範性檢測、摔倒行為檢測等。此外還可用于視訊分類。例如,抖音視訊、快手視訊、百度視訊每天上傳數以萬計的長短視訊,這些視訊需要進行分類并賦予泛标簽,進而進行視訊推薦、廣告推薦。是以,高效準确的視訊了解至關重要。
圖19. 動作行為識别示意圖
視訊識别與圖像識别兩者的重要差別是是否對時間序列模組化。因為,視訊是多幀圖像的組合,同時具有時間序列特性。比如,開門與關門兩個動作,從一個時間方向預測是關門,相反方向是開門。如果不考慮時序特性,僅進行圖像融合,神經網絡對兩個視訊動作的預測可能是同一個結果。
如圖19所示,每個視訊片段經解碼處理成為單幀圖像,對單幀圖像進行特征提取獲得空間特征,同時采樣時間方向模組化,擷取幀時序特征,最後經過特征融合與分類輸出視訊類别。這是正常的視訊分類方法。對于時序特征的提取,常用的方法包括3D-CNN,RNN, LSTM等。而這些模型參數量大、計算開銷大。對于視訊分類高效、準确尤為重要,特别是對于算力有限的邊緣嵌入式裝置的線上視訊分析。
下面介紹動作行為預測中的典型網絡模型TSM(Temporal Shift Module)。
圖20. TSM子產品
核心思想:在時間方向上對特征通道資料移動,實作時序資訊交換,同時不增加計算成本。
解釋一下,神經網絡對輸入張量進行特征提取擷取特征圖,假設目前幀擷取的特征圖的個數為C,為了使下一幀能夠擷取目前幀的特征資訊,從目前幀C個特征圖中選取一部分(假設C/8)傳至下一幀,目前幀的部分特征圖(C/8)與下一幀的特征圖(7*C/8)共同構成了下一幀的特征圖。這樣就實作了時序間的資訊傳遞。
如圖20所示,(b)在時間方向上進行特征移動,即目前時刻的一部分特征移向了前一時刻;一部分特征移向了下一時刻。該移動方式适用于離線的視訊分析。(c)在時間方向上進行單向移動,即目前時刻的部分特征移向下一時刻,該移動方式适用于線上視訊分析。
問題1:為什麼TSM不增加計算成本?
卷積操作可以分為移動與乘積兩部分操作。移動是正常的指針偏移操作幾乎不消耗計算量;卷積核與張量的乘積耗費計算量。是以,TSM選擇在通道方向上的移動操作,既降低了計算量,同時實作時序特征交換。
問題2:TSM移動的特征圖比例多少合适?
如果移動的目前幀的特征圖比例過多,雖然不會增加計算量不會産生計算耗時,但是會涉及到資料在記憶體中的移動,這部分移動也會增加耗時。資料移動量越大,耗時越大。同時特征圖移動比例過大,會造成目前幀特征圖空間模組化能力下降。為此,對于雙向移動的TSM子產品,比例選擇1/4,即每個方向上移動1/8特征圖;對于單向移動的TSM子產品,比例選擇1/8。經測試,該比例下的預測精度高,同時由于資料移動産生的耗時低。
問題3:TSM子產品特征提取放在什麼位置?
TSM子產品提供了兩種插入位置,一種是放到殘差網絡之前,另一種是放到殘差分支中。
對于第一種,如圖21(a), 該方式将時移特征作為主幹特征,殘差分支與直連分支均基于主幹特征操作。該方式會損壞目前時刻特征的空間學習能力,特别是時移比例較大的情況。
對于第二種,如圖21(b),該方式将時移特征插入至殘差分支,不僅能夠保留原始空間特征,同時能夠學習到時移特征,解決了方式第一種特征學習能力不足導緻的網絡退化問題。
圖21. TSM子產品類型
如圖22所示,目前層的Feature Map X經時移操作得到新的特征圖Shift,後接卷積操作得到的結果與輸入X進行Add操作,進而得到輸出。
圖22. Residual TSM
可自定義對特征提取網絡的某些層,實作Residual TSM,并将時移特征傳遞至下一時刻。
圖23. TSM線上預測網絡結構
TSM線上預測推理過程如下:
簡單的說,對于每一幀,儲存殘差塊的前1/8個特征圖至緩存中。下一幀将目前特征圖的前1/8用緩存中的特征圖代替,1/8的舊特征圖與7/8的目前特征圖組合生成下一層,并重複該過程。
第一步:将目前時刻該層的特征圖的前1/8用緩存中舊的1/8來代替,并将1/8舊特征圖與7/8目前特征圖組合生成至下一層;
第二步:目前時刻的下一層,重複第一步的方法,依次循環完成目前時刻所有殘差層的特征圖更新,同時完成緩存更新。
第三步:對于曆史前N個時刻的logit輸出進行平均,輸出這N個時刻的所構成的視訊片段的預測結果,完成動作預測。
TSM通過時間次元上的特征移動實作了不同時刻特征資訊的交換與融合,同時基于多個時刻預測值的均值預測類别,兼顧了速度與性能,為視訊分類經典模型。
4、時序動作定位技術
時序動作定位簡稱TAL(Temporal Action Localization)是視訊了解中的重要分支。其解決的主要問題為,定位動作發生的開始時刻與結束時刻。
TAL技術應用廣泛,如流程性動作的始末點分析;海量視訊的智能剪輯;廣告的智能檢測與插播等場景都離不開時序動作定位技術。比如機場中通過TAL技術來定位飛機在什麼時間段完成了什麼節點動作,電視台通過TAL技術鑒别廣告播放與結束時刻,進而進行目标廣告植入。
圖24. 時序動作定位示意圖
如圖24所示,時序動作定位核心問題為在時間方向上預測動作的起點與終點,同時給出起點終點之間的視訊類别。
圖25. 時序動作定位方法
怎樣預測起止點與動作類别?
(1)滑窗法
預測起止點與類别,最直接的方法是給定不同大小的滑窗,在時序視訊上進行滑動,然後判斷滑窗内的動作類别。
圖26. 滑窗法時序動作預測
(2)候選框預測法
類比于兩階段的目标檢測算法,第一階段通過RPN網絡生成候選框,第二階段對候選框進行分類與坐标修正。基于候選框法的時序動作定位遵循類似的思路。首先,原始視訊經2D CNN或3D CNN提取1D卷積特征;其次,通過模型生成動作候選區間,最後預測每個候選區間内動作類别,并對候選區間進行修正。
圖27. 候選框預測法
滑窗法與候選區間法,本質上都是基于預先設定的區域間框對區間内動作類别進行預測,同時修正區間邊界。這類方法統稱為自頂向下方法。聽着很熟悉,沒錯,類似于姿态識别當中的自頂向下方法。受限于預先設定的視窗,所定位的動作的起止位置不夠準确。
(3)起止點預測法
起止點預測法屬于自底向上的預測方法也稱作local to global先局部後整體。首先,通過局部特征預測動作的開始時刻與結束時刻;其次,将開始時刻與結束時刻合成候選區間;最後,預測候選區間内的動作類别。
圖28. BSN網絡結構
下面介紹自底向上時序動作定位算法BSN(BSN: Boundary Sensitive Network for Temporal Action Proposal Generation)該方法主要分為以下三步:
第一步:BSN在視訊片段的每個時間點上預測輸出一個動作開始的機率,結束的機率以及目前時間點屬于某個動作的機率,同時生成<start prob, end prob, action prob>時間序列作為局部資訊;
第二步:使用local to global方式組合高機率值的開始點與結束點,生成不同大小,不同邊界準确性的proposal;
第三步:利用proposal level特征來評估每個proposal的置信度,并從第二步中檢索出高置信度的proposal。
随着自注意力Transformer在圖像分類、目标檢測中表現出的強大能力,在時序動作定位中也産生了令人印象深刻的性能,并出現了如ActionFormer等模型,鑒于篇幅限制,暫不做詳細介紹。
5、視訊内容檢索技術
什麼是視訊内容檢索?
視訊内容檢索即通過檢索關鍵詞、圖檔、視訊從海量視訊底庫中檢索出目标視訊。本質上是向量檢索,即對底庫視訊進行數字化編碼形成能表征視訊特征的向量T,同時對檢索内容進行向量數字化編碼形成檢索向量S。檢索即通過特征比對從海量底庫視訊T中檢索出檢索出S。
能檢索什麼?
視訊内容檢索差別于傳統的基于關鍵詞的檢索,是一種新型的内容檢索方式,更符合使用者習慣與使用者檢索需求。視訊内容檢索可檢索視訊文字、視訊目标、相似内容視訊、相似語義視訊。
應用場景?
該技術廣泛應用至數字資産管理、海量視訊檢索、視訊侵權檢測以及視訊推薦系統中。
單從檢索精度上來說,涉及兩個問題:
問題1:如何有效對視訊内容進行向量化形成Embedding?
問題2:如何度量檢索S與底庫T之間的相似性?
圖29. 視訊内容Embedding方法
如圖29所示,對視訊進行Embedding的方法大緻分為三類:
第一類:基于内容的Embedding
該類方法主要采用特征提取網絡對視訊中序列幀進行向量化編碼,形成2048或768次元的向量。通過非時序或時序網絡提取每幀特征,同時進行特征融合形成表征該視訊特征的全局Embedding。同時,細粒度的内容Embedding還包括視訊中的目标、人臉、文字Embedding。
第二類:基于語義的Embedding
該類方法主要采用視覺編碼器如ResNet50,Vit-Base/32等對視訊中的圖檔進行Embedding。在此基礎上通過映射網絡将視覺特征映射至語義空間,得到每幀圖檔的語義Embedding。其中映射網絡通過CLIP/Chinese CLIP訓練得到,即通過數億對的圖文對訓練擷取。
第三類:基于結構化的Embedding
該類方法主要采用視訊圖像中的結構化資料進行Embedding。比如頁面點贊量、收藏量、關注量資訊、使用者的觀看時長、是否評論等行為資訊對視訊進行Embedding。在推薦系統中應用居多。
圖30. 視訊内容檢索方法
如圖30. 視訊内容檢索方法根據模态的不同可分為同模态檢索與跨模态檢索。
同模态檢索表示檢索内容與底庫内容形式相同(同為文本、圖檔、視訊),跨模态檢索表示檢索内容與底庫形式異同(文本->視訊),相似性對量方法與上文所述deepsort中的度量方式類似,以餘弦距離度量為主,因為餘弦距離值域0-1,門檻值選取簡單。
三、AI視訊智能分析應用場景有哪些?
從靜态圖像到動态視訊,視訊智能分析技術壁壘正在逐漸被突破,而全視訊時代正在加速到來,據統計,2022年大陸安防攝像頭出貨量近5億台,同時,以抖音為首的視訊媒體平台每天産生數以千萬的視訊。海量視訊中蘊藏巨大的智能分析需求。
總的來說,視訊智能分析的核心需求主要包括事件智能預警與降本增效提質。圖31為AI視訊智能分析的典型應用場景。也是智驅力科技在智能視訊領域的深耕應用場景。
圖31. AI智能分析應用場景圖
1、數字安防
在數字安防中的典型應用為視訊結構化了解。如人臉識别、車輛識别等正常應用。同時,涉及到較為複雜的結構化分析,如以“人”為中心的結構化分析,對視訊中人員打架、偷竊、徘徊、抽煙、摔倒等異常行為的偵測。同時對人員的流量、屬性、年齡、性别的結構化分析用于商業推薦。這些場景通過人工24小時監控難以實作,智能分析優勢顯著。
2、新聞媒體
在新聞媒體中的典型應用為媒資内容稽核。在新聞媒體内容釋出前,需要人工依照稽核條目依次對視訊中的各項名額進行稽核,從海量的視訊中逐幀審查是否存在違規内容,該方式時效性差、人力成本高、稽核品質無法保證。而視訊智能分析能夠逐幀對視訊中的稽核項高效分析,不僅效率高、稽核品質穩定準确。
3、工業生産
在工業生産中的典型應用為場景目辨別别、屬性分析與事件分析。工業場景多為流程性作業,每個流程均存在耗費人力與效率低下問題。例如廠區中的布置大量監控攝像頭,并配備大量運維人員24小時監控異常事件,不僅效率低而且易遺漏。再如,廠區中鋼闆尺寸依靠人工測量,成本高、效率低。這些需求依靠AI視訊智能分析均能夠以低成本實作事件預警與增效提質。
4、城市管理
在城市管理中的典型應用為場景目辨別别與事件分析。城市管理主要對城市中的違規、違法問題依法查處。如違規排放污染物、違規種植罂粟等問題。城市面積大,違規問題複雜繁多,依靠管理人員24小時逐地點巡查不現實。通過城市安防監控或者無人機拍攝的視訊并通過AI智能分析逐一對問題點稽核排查。
四、AI視訊智能分析産品有哪些?
面對安防監控視訊與媒體視訊的分析需求,智驅力科技深耕數字媒體與智能制造,持續将先進、可靠的人工智能視訊分析技術落地産業。據此,開發出了AI硬體産品、AI軟體産品與AI服務産品。
圖32. AI視訊智能分析産品圖
1、AI硬體産品
AI硬體産品具體為軟硬一體産品。将AI視訊分析引擎植入智能分析盒、智能分析伺服器以及智能分析攝像頭中。來自安防攝像頭、媒體視訊流可直接接入AI硬體産品,分析結果可進行可視化,同時可接入第三方軟體系統。智驅力科技硬體産品詳情如下:
2、AI軟體産品
AI軟體産品具體為視訊智能分析軟體系統。對此,智驅力科技開發了視訊智能分析系統用于攝像頭視訊分析;開發了AI稽核與搜尋系統用于媒體視訊内容的稽核與搜尋。産品詳情如下:
3、AI服務産品
AI服務産品具體為智能雲服務平台。使用者可接入需要分析的視訊資料擷取分析結果。同時,對使用者所需分析視訊提供一站式分析服務,隻需登入賬号可檢視分析内容。産品詳情如下:
總結:
本文從AI視訊分析的背景、技術、應用場景以及産品進行了介紹。總之,視訊智能分析技術的應用對于事件智能預警、企業降本增效提質、提高生活品質具有重要意義。政府與企業的大力投入,加速了智能分析發展程序。未來視訊智能分析大有可為。
智驅力-科技驅動生産力