天天看點

基于大資料清洗技術的地鐵行人客流量檢測算法研究

作者:慢紀硬核說
基于大資料清洗技術的地鐵行人客流量檢測算法研究

文、編輯 | 念初

行人檢測模型對資料集的品質要求很高,針對這一問題,本文采用資料清洗技術來提高資料集的品質,進而提高行人檢測模型的性能。

本文使用的資料集來自北京和南京的地鐵站,由于資料圖像的品質受運動模糊、不均勻照明和其他噪聲因素的影響。是以,資料清洗技術對于本問的研究來說非常重要。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

本文的資料清洗過程分為檢測和校正兩部分。首先,對整個資料集進行模糊檢測,将嚴重模糊的圖像作為困難樣本進行過濾。

然後,将圖像發送到相關軟體進行去模糊處理,采用二維伽馬函數自适應光照校正算法對地鐵行人圖像進行校正。

處理後的資料被發送到行人檢測模型,在不同的資料清洗資料集下,通過對檢測結果的分析,證明資料清洗過程顯著提高了檢測模型的性能。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

研究背景及意義

關于資料清洗的研究最早出現在美國,對社保号錯誤的修正。資料清洗的早期研究主要集中在資訊資料上,主要研究内容如下:

(1)異常資料的檢測與剔除;

(2)近似重複資料的檢測和剔除;

(3)資料整合;

(4)領域特定資料清洗。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

大資料是這個資訊驅動世界的象征,它具有數量、多樣性、價值高和速度快的特征,已逐漸獨立于軟體産品,甚至主導了一些軟體産品的開發。

如今,人們可以通過多種方式擷取海量資料,但擷取資料後往往需要根據自己的特定目的對它們進行不同的處理,從中提取有價值的資訊。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

為了得到有價值的資訊來滿足人們的需要,所獲得的資料應該可靠、準确地反映實際情況。然而,我們能夠收集到的第一手資料,往往是由于人為錯誤導緻的不一緻、不準确的“髒資料”。

如此一來,這就展現出來資料清洗技術的重要性,以及這一步的關鍵作用。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

目前有大量學者緻力于該領域,算法也在不斷完善中。相反,模型的性能在資料層面受到限制。

這就導緻許多研究發表的地鐵行人資料集,資料品質都比較一般,同時意味着它通常受到光照不均勻和運動模糊這兩個突出問題的影響。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

本文對采集到的海量地鐵行人圖檔進行資料清洗,設計如下步驟:

(1) 需求分析。本文從現實生活場景中采集、清洗并制作了地鐵行人資料集,針對地鐵行人檢測任務的圖像品質要求,我們制作了一個高品質的地鐵行人資料集

(2) 預處理。在預處理步驟中,根據拉普拉斯算子計算圖像的方差,識别圖像的模糊程度,統計分析采集圖像中模糊圖像和清晰圖像的分布。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

(3) 制定清潔規則。本文根據預處理結果設定門檻值。如果圖像的方差小于門檻值,則認為是模糊圖像,對其資料進行清洗。

(4) 清潔和校準。對于模糊圖像,本文進行去模糊;對于光照分布不均勻的圖像,利用二維伽馬函數自适應調整光照強度。

(5) 檢視。本文将采用不同資料清洗規則得到的資料集送入網絡測試模型的性能,分析本文采用的資料清洗方法在行人檢測任務中的有效性。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

地鐵行人資料集

由于地鐵站内乘客相對密集,監控攝像頭的高度和角度,在人群密集時,行人軀幹容易互相擋住,頭肩位置一般比較齊全。

是以,建立了基于頭肩位置的行人檢測模型,首先逐幀讀取視訊資料,生成的圖檔以JPG格式存儲在本地。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

研究所用資料集是從地鐵站獲得的行人資料集,其中包含大量遮擋場景,它可以有效地評估檢測器對遮擋問題的魯棒性。

這些圖檔都來自北京和南京的一些地鐵站,每張圖檔的平均行人數量為 13.36,如表1所示。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

表1

本研究制作了地鐵行人資料集,使用相關軟體将行人頭肩位置用矩形框标注出來。

标記框應包含盡可能多的行人頭部和肩部位置,同時包含盡可能少的背景資訊。

得到的地鐵行人資料集包含了地鐵站内不同時間、不同地點的客流情況,如圖1所示。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖1

資料集品質分析

采集的地鐵行人圖像在采集、存儲、傳輸過程中不可避免地受到各種因素的影響。進而産生不同類型的失真和不同程度的失真,其中模糊失真最為常見。

模糊失真導緻圖像品質下降,影響行人檢測的準确性。是以,本文使用模糊檢測的方法來分析資料集的圖像品質。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

如圖2所示,地鐵行人資料集中有四個層次的模糊分布。從觀察可以看出,大量的圖像聚集在第一級和第二級模糊中,是以需要對資料集進行去模糊處理。

地鐵行人資料集中超過 60% 的圖像是模糊的。大量的模糊樣本會影響網絡的訓練效果,是以需要對資料集中的圖像進行去模糊處理。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖 2 資料集中的圖像模糊級别分布

資料清洗算法

地鐵站内,行人互相遮擋,不同區域光照強度不同,往往導緻行人周圍光照不均勻。

這主要展現在圖像的某些區域光照不足,而圖像的某些區域光照過強,測試中無法提取部分圖像細節,嚴重影響行人檢測結果。

是以,需要對地鐵行人圖像進行光照不均校正,盡可能消除光照不均帶來的影響。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖3 物體光照的空間關系

一般來說,數字圖像可以看作是一個二維函數f(x,y),這是通過乘以入射光分量獲得的i(x,y)和物體表面反射分量r(x,y):

基于大資料清洗技術的地鐵行人客流量檢測算法研究

空間關系如上文圖3所示,對于光照不均的圖像,由于入射光照分量分布不均勻,導緻光照強的區域圖像亮度值偏大,而光照弱的區域圖像亮度值偏小。

從光照不均勻圖像的光照校正中提取入射光分量非常重要,光照分量通過多尺度高斯函數提取,高斯函數公式如下所示:

基于大資料清洗技術的地鐵行人客流量檢測算法研究

在提取光照分量後,建構了一種基于二維伽馬函數的自适應亮度校正方法。

根據光照分量的分布特點,自适應調整2D伽馬函數的參數,對光照不均勻的圖像進行校正,降低光照過強區域的亮度值,提高照度過低的區域,進而達到處理照度不均圖像的效果。

這允許模型了解有關圖像暗部的更多細節,對于輸入圖像F(x,y),假設提取的光照分量是I(x,y),改進後的二維伽瑪函數表達式如下所示:

基于大資料清洗技術的地鐵行人客流量檢測算法研究

實驗結果與分析

用于運動模糊去除的訓練網絡的整體結構如圖4所示,其中生成器網絡将模糊圖像作為輸入并産生重建圖像。

在訓練過程中,判别網絡将重建圖像和原始清晰圖像作為輸入,并估計它們之間的距離。生成器網絡結構如圖5所示,由兩個步長為一半的步長卷積塊、九個殘差塊和兩個轉置卷積塊組成。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖4 訓練網絡的架構。

每個殘差塊由一個卷積層、一個執行個體歸一化層和一個激活層組成。在每個殘差塊中的第一個卷積層之後添加機率為一半的缺失正則化。

本文通過使用運動錄影機資料集,共計 1146 對取自不同場景的模糊-清晰圖像對,在系統的架構中進行200次疊代訓練,通過修改網絡設定每20次儲存一次訓練結果模型。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖5 生成器架構

對于地鐵行人的模糊圖像,沒有進行圖像處理,也沒有相應的清晰圖像,是以無法使用有監督的方法對該資料集進行去模糊訓練。

通過調用地鐵行人的訓練模型來處理模糊資料集,來單獨訓練整個模糊網絡的過程,由于原始網絡輸出圖檔圖像分辨率比較低,用于處理地鐵行人資料集以獲得去模糊圖像,如圖6所示。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖6

從圖7(a)的地鐵行人光照不均勻的情況下提取光照分量,得到對應光分量的圖7(b) 。

如圖7(a)所示,由于地鐵燈光的照射,原圖中間部分亮度較大,而如果周圍沒有直接照明,則亮度較暗。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖7(a)觀光照校正前

圖7(b)的中間部分在照明分量之後也較大。

光照校正處理圖7(c)是通過自适應校正處理得到的。

與原圖相比,中間部分的亮度有所降低,四個角的亮度明顯增加。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖7(b)光照分量

結論:

本文認為資料量大、資料品質低的地鐵行人資料集是導緻行人檢測模型性能不佳的主要原因。為此,将資料清洗技術引入地鐵行人檢測系統。

文中首先使用拉普拉斯算子對地鐵行人圖像進行模糊檢測,将資料集中的圖像分為清晰圖檔和模糊圖檔。

通過采用不同的資料清洗方法組合和算法的驗證,證明了假設的合理性,行人檢測算法的性能通過資料清洗得到顯着提升。

基于大資料清洗技術的地鐵行人客流量檢測算法研究

圖7(c) 光照校正後

參考文獻:

1、A. Geiger、P. Lenz、C. Stiller 和 R. Urtasun著,《視覺遇見機器人:KITTI 資料集》卷32,第 1231–1237 頁,2013 年。

2、P. Dollar、C. Wojek、B. Schiele 和 P. Perona著,《行人檢測:對最先進技術的評估》卷34,第 743–761 頁,2012 年。

3、S. Zhang、R. Benenson 和 B. Schiele著,《城市人:行人檢測的多樣化資料集》,2017 年。

4、MK Singh、US Tiwary 和 YH Kim著,《一種自适應加速的 Lucy-Richardson 圖像去模糊方法》,2008 年。

5、E. Nursultanov、M. Ruzhansky 和 S. Tikhonov著,《緊緻齊次流形上的不等式》,2014 年。

繼續閱讀