天天看點

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

0 引言

近年來,生物多樣性危機,即世界範圍内的物種損失和生态系統的破壞問題,正在全球範圍内持續加速,生物多樣性正在迅速減少。例如,許多物種如老虎和犀牛,由于非法采伐(即偷獵)而面臨滅絕的危險。研究動物的分布、運動和行為對解決環境挑戰至關重要,如疾病的傳播、入侵物種、氣候和土地使用的變化等等。是以,迫切需要部署可擴充和具有成本效益的監測技術,以更好地模拟和了解野生動物及其居住的環境。

随着人工智能的快速發展,人工智能技術也被引入到野生動物研究和保護中。哈佛大學、谷歌、英特爾、DeepMind,以及國内的快手、阿裡等等衆多研究機構、企業,甚至包括一些政府機構,都已經投入到了這項工作中,且研發和部署了相應的産品。我們在這篇文章中以兩篇文章為基礎,分别讨論了聲音、相機陷阱(camera traps)是如何實作野生動物監測的。此外,最後一篇文章還讨論了如何利用人工智能技術輔助解決野生動物偷獵(wildlife poaching)的問題,即對偷獵者軌迹的預測問題。

1 利用深度資訊進行野生動物監測 [8]

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

相機陷阱(Camera traps)是生物學特别是生物多樣性研究中的一個成熟工具。不過,盡管相機陷阱能夠提供關于場景的豐富的資訊,同時促進了傳統人工生态學方法的自動化,但是包含深度估計資訊(Depth estimation)的相機陷阱并沒有得到廣泛的部署和應用。本文提出了一種基于深度相機陷阱的自動方法,利用深度估計來探測和識别動物。為了檢測和識别單個動物,作者提出了一種新的方法 D-Mask R-CNN 用于執行個體分割。D-Mask R-CNN 是一種基于深度學習的技術,用于檢測和劃分圖像或視訊片段中出現的每個不同的興趣對象。

1.1 關于 Camera traps 的背景知識

相機陷阱是一項連續監測動物的技術。具體指使用動作傳感器、紅外探測器或其他光束作為觸發機關的遙控相機。它常被用來拍攝攝影師不容易直接拍得的畫面。相機陷阱能夠提供可用于探測動物的線索資訊(參見圖 1(頂部)),以實作在動物群中區分單個動物(參見圖 1(底部)),在觀察環境中定位動物以及促進生态學研究的自動化發展,如估計種群密度等。不過 Camera traps 并沒有在野外廣泛部署[1]。

在計算機視覺中,距離測量由圖像或視訊片段中的深度通道來表示。給定一個灰階圖像作為相機陷阱的視覺輸出,例如,在夜間或黃昏使用紅外錄影機監測野生動物(參見圖 1(左上)),深度通道捕獲距離資訊(參見圖 1(右上))。深度通道通常以熱圖的形式呈現,其中藍色表征的距離最高,紅色表征的距離最低。帶有深度通道的彩色圖像被稱為 RGB-D 圖像,其中圖像的顔色成分由紅、綠、藍三條通道編碼,而第四條通道顯示深度資訊(參見圖 1(底部))。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 1. 深度資訊支援對動物進行更可靠的檢測,也支援區分成群結隊的單個動物。深度資訊使用熱圖進行編碼,其中表征距離最高的是藍色,最低的是紅色

立體視覺是擷取深度資訊的主要方法之一。給定兩台相機,在水準方向上互相移動,觀察到的場景的兩個不同的視角被用來生成觀察到的場景物體的深度,其方式類似于人類的立體視覺。本文提出了一種基于深度相機陷阱的自動動物探測方法,利用深度估計來探測和識别動物。為了檢測和識别單個動物,作者提出了一種新的方法即所謂的執行個體分割,這是一種基于深度學習的技術,用于檢測和劃分圖像或視訊片段中出現的興趣對象。

1.2 方法介紹

從人工智能的角度分析,本文是使用的方法是一個基于 Mask R-CNN 的架構[2],将執行個體分割應用于 RGB-D 圖像,作者稱之為深度掩碼 R-CNN(Depth Mask R-CNN)或簡稱 D-Mask R-CNN,它利用額外的深度資訊來改進邊界框和分割掩碼的預測,以檢測和定位物體執行個體以及識别它們。D-Mask R-CNN 的具體架構見圖 2。?

圖 2. D-Mask R-CNN 的具體架構

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

深度骨幹網(Depth backbone)。本文所使用的完整的架構是建立在 detectron2 架構中的 Mask R-CNN 實作之上的 [3]。除了傳統的彩色圖像骨幹網(color image backbone),即在 ImageNet[4] 上預訓練的 ResNet-50 模型 [5] 之外,作者還采用了幾乎相同的 backbone 來處理深度通道,即一個深度骨幹網。

初始化深度骨幹網(Initialization of depth backbone)。深度骨幹網的初始化參數與彩色骨幹網相同,即網絡權重,但第一層除外。在這一層中,權重預計是三通道的 RGB 彩色圖像,而深度通道隻是一維的。作者在圖像骨幹網的第一個權重次元上取平均值,以獲得深度骨幹網第一層的初始權重。在訓練過程中,深度骨幹網的權重一定會出現與彩色骨幹網的權重相背離的現象,也就是說,在兩個骨幹網之間不采用權重共享的處理方式。另外,也可以随機地初始化深度骨幹網的權重。彩色和深度特征融合(Fusion of color and depth features)。當輸入通過兩個骨幹網傳播時,在不同的尺度上提取深度為 256 的中間特征圖,與在标準 Mask R-CNN 的單一骨幹網的情況下一樣。然後,将兩個骨幹網的特征圖在每個層次(深度 512)上串聯起來,并通過一個核心大小為 33 的單一卷積層(每層有一個專門的卷積層),将串聯的特征圖的深度從 512 降到 256。作者稱這種操作為特征融合(feature fusion),因為它融合了所有三個彩色通道和深度通道的特征資訊。雖然本文使用的 D-Mask R-CNN 架構與 [6] 中的方法類似,都是采用兩個獨立的骨幹來處理彩色和深度通道,但作者在選擇從兩個骨幹網獲得特征的處理過程并沒有對網絡架構施加事先的限制。綜合彩色和深度特征的處理(Processing of consolidated color and depth features)。将上一步融合處理後得到的特征圖輸入區域建議網絡(region proposal network,RPN),以得到可能的執行個體邊界。然後,通過興趣區域(ROI)對齊,将特征圖與每個邊界對齊。然後将這些對齊的特征圖交給掩碼頭和分類器,分别計算出執行個體掩碼和類别預測。

1.3 所使用的資料情況 

正如在前文中提到的,由于 Camera traps 并沒有廣泛部署,作者使用一個合成資料庫評估了本文提出的 D-Mask R-CNN。該資料庫包括了通過渲染合成野生動物場景産生的 RGB-D 視訊片段。為了提供一個概念驗證的應用,作者在一個動物園裡安裝了一個 RGB-D Camera traps,并在捕獲的 RGB-D 視訊片段上評估了 D-Mask R-CNN。

1.3.1 合成資料

在實驗資料生成過程中,每隻動物都有一個相關的運作動畫,使用該運作動畫并在時間上随機化,以從所有可能的運動狀态中取樣。作者還對錄影機和照明的角度、高度和視野進行随機化處理,同時保持兩者大緻指向同一方向和同一地點。然後使用 Blender 軟體包 [7] 渲染灰階、深度、類和執行個體圖像。作者渲染灰階圖像而不是彩色圖像,以模拟夜間或黎明時分紅外傳感器産生灰階圖像的 Camera traps 結果。作者最終生成了描述四個動物類别的 RGB-D 視訊片段:鹿、野豬、野兔和狐狸。圖 3 給出了合成資料庫的視訊片段中的兩幀。表 1 給出了合成資料庫的概況。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 3. 合成資料庫的視訊片段的兩幀。左:強度,右:深度

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

表 1. 合成資料庫的統計資料

1.3.2  Camera traps 資料庫

作者采用低成本、現成的元件設計并建造了一個 RGB-D Camera traps,特别強調了在不同照明條件下的多功能性,具體使用了 Intel® RealSense™ D435。作為一個主動紅外立體相機(即兩台相機與一個額外的照明源配對),它比純結構光相機能在更廣泛的照明條件下發揮作用,因為純結構光相機在明亮的場景中往往無法找到對應的資料。圖 4 給出了 RGB-D Camera traps 的示例。作者對 RGB-D Camera traps 的元件進行了詳細介紹,我們在這裡不再贅述。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 4. 建構 RGB-D Camera traps。(A): Intel®RealSense™ D435, (B): NVIDIA® Jetson Nano™ Developer Kit, (C): 被動紅外傳感器(PIR,在此圖檔中不直接可見),(D): 用于控制的 L298N,(E): 紅外線燈用于夜間照明,(F): tp-link Archer T4U 無線網絡擴充卡

1.4 實驗分析 

作者使用合成資料庫評估了 D-Mask R-CNN,該資料庫包括了通過渲染合成野生動物場景産生的 RGB-D 視訊片段。作者采用 COCO 評價名額的一個子集作為評估名額:10 IoU(intersection over union)水準的平均精度(Average Precision,AP),IoU 門檻值為 50% 時的 AP(AP_50%),IoU 門檻值為 75% 時的 AP(AP_75%)以及觀察到的四個不同動物類别的 AP 得分。作者将 D-Mask R-CNN 的結果得分與文獻 [2] 中的經典 Mask R-CNN 方法(即表 4 中使用和不使用深度資訊的 Mask R-CNN)進行比較。D-Mask R-CNN 在所有名額上明顯優于經典的 Mask R-CNN。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

表 2. D-Mask R-CNN 在合成資料庫上對 bounding box 預測和 segmentation mask 預測的動物檢測任務的 AP 分數

為了提供一個概念驗證的應用,作者還将 D-Mask R-CNN 應用于安裝在 Lindenthal Zoo 的 RGB-D camera trap 所拍攝的 RGB-D 視訊片段上,并對其進行了評估,評估隻考慮到了觀察到的鹿。圖 5 給出了兩個示範性結果。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 5. RGB-D camera trap 資料庫的兩幀視訊片段與邊界框預測和 D-Mask R-CNN 的分割掩碼預測相疊加。左:強度,右:深度

2 利用聲學監測和深度學習建立動物生物多樣性模型[9]

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

2.1 背景知識

在監測野生動物和栖息地健康時,聲音訊号也被認為是一種重要的途徑。聲學傳感器為野生動物保護主義者和研究人員提供了不受幹擾地接觸大自然的機會。這些傳感器提供了重要的生态學資料,使生态系統内的豐富度、分布和動物行為資訊能夠被用于建立保護戰略模型。典型的分析類型包括占用或分布模型、密度估計和數量趨勢分析。我們在上一篇文章中提到的 camera traps 一直是此類分析的首選技術,不過,近年來聲音監測已被用于擴充生物多樣性研究。音頻提供了一個與圖像不同的感官次元,它還有一個額外的好處,那就是可以穿越更大的地理邊界,并且在許多難以到達的環境中較少受到視野和植被限制的影響。

聲學傳感器的地理覆寫範圍很大,對人口稠密環境的影響較小,是以,在生态學和保護中越來越多應用聲學監測,現在已經認為它是了解動物對環境變化反應的一個關鍵組成部分。camera traps 對檢測大型動物非常有用,當它們與被動聲學監測相結合時,可以識别更廣泛的動物物種,包括不容易被 camera traps 發現的非常小的動物。當單獨使用聲學傳感器時,它們可以被長期部署(通常是幾個月)以模拟一個特定的生态系統。

聲學傳感器産生連續的時間序列資料,通常包括與不同信号發生器有關的頻率組合。不同的動物物種使用不同的聲學特征和頻率産生聲音。是以,為了獲得所需的資訊,有必要将信号與噪音分開。最常見的提取頻率特征的方法是快速傅裡葉變換(FFT)。本文在聲學監測管道中實施 FFT 以生成頻譜圖,這些頻譜圖以前被用來對動物叫聲進行視覺分類和标記。探測包括在錄音中定位感興趣的特定聲音,同時将每個聲音歸入一個特定的類别,如物種類型。這種形式的分析是勞動密集型的,而且往往會因保護者的經驗而産生偏差。圖 6 給出了本文所使用的資料庫中的一個頻譜圖執行個體(家雀)。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 6. 一隻家雀的頻譜圖

本文提出了一個自動聲音分類方法,适用于大規模的聲學調查和被動監測項目。在本文給出的分析和實驗中,該方法能夠對不同的鳥類聲音進行分類,同時,作者提出在生成特定物種的聲學分類模型後,也可以将其應用到其他類型的動物分類中。作者選擇鳥類是因為鳥類被認為是評估栖息地健康和建立生物多樣性模型時的重要物種。

2.2 資料分析和方法介紹

2.2.1 資料分析 

本文使用的音頻資料集包含了在英國發現的五種不同的鳥類(小斑啄木鳥、歐亞斑鸠、大山雀、家雀和普通木鴿),可以通過 Xeno-Canto 網站通路(

https://www.xeno-canto.org/

)。音頻檔案的長度是可變的。為了使輸入标準化,音頻檔案被修剪到重新編碼的前 15 秒。圖 7 給出了資料集的類别分布。其中,存在一個輕微的類别不平衡,但這并不會影響模型的整體性能。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 7. 鳥類物種的分類計數

資料集中的每個音頻檔案的采樣頻率為 44.1kHz。圖 8 給出了資料集中每個類别的波形示例。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 8. 波形示例

如圖 7 所示,該資料集包含每個鳥類物種的有限數量的音頻檔案。此外,獲得的資料由目标類别的前景和背景噪聲組成,反映了真實世界的栖息地情況。所有獲得的資料都是衆包的(crowd source),并通過 Xeno-Canto 網站申請。

資料集擁有寬泛的比特深度(-24440 到 21707),作者使用 Librosa 負載函數對其進行了歸一化處理。這是通過在給定的比特深度下取最小和最大的振幅值來實作的,最終得到一個在 - 1 和 1 之間的标準化範圍(-0.7461247 到 0.66244507)。由于資料集包含以立體聲和單聲道錄制的音頻檔案,作者将它們進行合并處理以使其統一,具體是通過對兩個通道的數值進行平均來實作的。下圖9給出了頂部的原始音頻檔案(立體聲)和底部的轉換(單聲道)檔案。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 9. 立體聲到單聲道的轉換

然後,作者使用 MFCC 從原始音頻信号中提取特征。人類的聽覺系統并不遵循線性尺度。是以,對于每一個實際頻率為 f 的音,以赫茲為機關,主觀的音調被映射到 Mel scale 上。該過程首先将音頻樣本分割成 40 毫秒的小幀,然後使用快速傅裡葉變換(FFT)将 N 個樣本從時域轉換到頻域,定義為下式(2.1):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

其中,X(w)、H(w)和 Y(w)分别是 X(t)、H(t)和 Y(t)的傅裡葉變換。将輸入信号分離成多個分量的 bank filters 以計算濾波器分量的權重和,進而確定輸出接近于 Mel scale。每個濾波器的輸出是其濾波後的譜成分的總和。Mel-frequency scale 定義由以下公式(2.2)給出,其中 f 是頻率,機關為 Hz:

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

使用離散餘弦變換(DCT)将對數 Mel 譜(log Mel spectrum)轉換為時域。MFCC 視窗大小被設定為 80,以捕捉更多的頻率和時間特征。一旦提取了 MFCC 特征,就可以繼續使用 90/10 的比例對資料集進行分割(訓練、測試)。

在這項研究中,作者使用多層感覺器(MLP)來完成分類任務。該網絡使用 ReLu 激活函數建構。MLP 的過濾器大小為 2,使用 Back propagation 作為學習算法,Adam 作為優化器。前三層 dropout 值為 50%,以提高概括性和減少過拟合。前三層由 256 個節點組成,而最後一層等于資料集中的類别的數量。模型概要見圖 10。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 10. 模型概要

MLP 訓練超過 100 個 epochs,作者通過實驗驗證 100 個 epochs 可以令模型收斂而不過度拟合。本文使用敏感性、特異性、精确性和準确率來衡量模型品質。靈敏度描述的是真正的陽性率,而特異性描述的是真正的陰性率。精度用于顯示正确分類的物種數量。訓練好的模型使用 TensorFlow 2.2 托管,并通過作者開發的面向公衆的網站提供服務(www.conservationai.co.uk )。作者使用 CUDA 11 和 cuDNN 7.6.5 提高學習速度。使用一台三星 S10 來記錄花園鳥類,并使用 SMTP 将擷取到的音頻自動上傳到平台進行分類。圖 11 給出了整個工作過程,從傳感器開始,最終展示在面向公衆的動物保護人工智能網站中(如圖 12 所示)。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 11. 端到端的工作過程

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 12. 動物保護人工智能網站

2.3 實驗介紹

圖 13 給出了模型訓練期間使用測試和驗證資料的損失。該圖顯示,在訓練過程中沒有出現過拟合現象,而且 dropout 有助于模型的正則化。盡管模型在訓練的早期就實作了收斂,但在整個 100 個 epochs 過程中,損失顯示出持續的下降趨勢。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 13. 訓練和驗證損失

該模型對訓練資料的準确率達到 0.83,對測試資料的準确率為 0.74。圖 14 給出了訓練和驗證資料在 100 個 epochs 中的準确性。結果表明,模型的準确性在訓練結束時趨于平緩,并表明模型收斂所需的 epoch 數是足夠的。通過增加 epoch 數量能夠改進的準确度很小,并可能導緻過度拟合。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 14. 訓練階段的訓練和驗證準确度

此外,作者使用一台三星 S10 手機在一棵有築巢的普通林鴿的樹下記錄現實環境中的鳥類音頻。音頻共記錄了三分鐘,并上傳到平台進行分類。在部署過程中,作者最終檢測到了 8 個單獨的鳥鳴聲。8 個分類中的每一個都傳回了對普通林鴿的預測,平均置信值為 0.71。

2.4 關于引入聲音信号的讨論

最後,作者對本文提出的方法進行了讨論,并強調了該方法的優勢。首先,通過本文的方法減少了訓練和推理模型所需的計算量,這使得動物保護者可以在低成本的前提下應用該方法,這就與傳統的方法形成了鮮明的對比。經典的用于鳥類音頻的分類的 CNN 方法,一般都對資料進行處理後才能應用,例如隻包括前景噪聲,這種音頻不能夠真實反映動物在其自然栖息地的情況。在本文方法中,使用 MFCC 可以在包含目标物種的背景和前景噪聲的更現實的資料集上訓練模型。這使得該方法能夠利用更廣泛的資料集。原文中給出的初步結果是非常好的,在此基礎上,作者設想,如果能夠收集更大的資料集,該方法可能會有更好的表現。

此外,通過對模型部署過程的分析我們可知,該系統可以以實用的方式用于對鳥類自然栖息地内聲音的自動分類。在本文的部署過程中使用的是三星 S10,不過更廣泛和普遍的聲學傳感器都可以被內建到系統中以達到同樣的效果。

聲學資料是量化生物多樣性和物種密度的重要工具,也是對它們所處環境的整體聲學健康狀況的評估。直到近些年,擷取資料、處理和對資料進行分類仍然主要依靠手工過程來實作。盡管在保護領域内的音頻自動分類方面已經取得了一些進展,但仍然存在很多挑戰,阻礙了其廣泛采用。本文提出的解決方案克服了許多現有方法中存在的計算和資料集的限制。這有助于為自動聲學分類提供一個可擴充的、具有較好成本效益的解決方案。

3 用于保護野生動物的反盜獵預測工具[10]

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

野生動物保護是一個全球性的問題。許多物種,如老虎和犀牛,由于非法采伐(即偷獵)正在面臨滅絕的危險,已經威脅到自然生态系統的運作,損害了當地和國家的經濟,甚至由于偷獵者的利潤流向恐怖組織,演變成為一個國際安全問題。為了防止偷獵野生動物,保護組織試圖用訓練有素的護林員來保護野生動物園。在每個時間段(如一個月内),護林員在野生動物園範圍内進行巡邏,通過抓捕偷獵者或清除偷獵者布置的陷阱的方式來防止偷獵者捕獲動物。例如,可以利用護林員在巡邏過程中收集到的偷獵迹象資訊和其他域特征來預測偷獵者的行為。學習偷獵者的行為以及預測偷獵者經常去的偷獵地點 / 位置,對于護林員完成有效的巡邏至關重要。

保護野生動物的安全機構非常需要能夠分析、模拟和預測偷獵者行為的模型。這種模型能夠幫助安全機構對形勢進行判斷,并制定巡邏計劃。此外,研究機構還發現利用這種模型生成的巡邏規劃工具也是非常有效的。受到 “防禦者 - 攻擊者 Stackelberg Security Game(SSG)” 在基礎設施安全領域中的應用啟發,前期已有工作将 SSG 引入野生動物保護中。在東南亞地區部署了一種基于 SSG 的巡邏決策輔助工具,稱為 PAWS[11]。盡管 PAWS 的應用很成功,但衆所周知它還存在幾個局限性。首先,PAWS 依賴于現有的反面行為模型,即主觀效用定量反應(Subjective Utility Quantal Response,SUQR)[8],它有幾個限制性假設:(a) 所有偷獵的迹象都是護林員完全可以觀察到的;(b) 偷獵者在一個時間段的活動與他們在以前或未來時間段的活動無關;(c)偷獵者的數量是已知的。其次,由于 SUQR 在模組化時隻依賴三或四個域的屬性,它無法詳細分析環境和地形特征對偷獵者行為的影響,是以文獻中一直缺乏對真實世界資料的分析。第三,針對新的複雜攻擊模型需要得到新的巡邏生成算法,以改進目前 PAWS 中使用的算法。

本文提出一種 CAPTURE 工具,目的是解決 PAWS 存在的上述問題。

第一 ,CAPTURE 能夠解決 SUQR 在模拟對手行為方面的局限性。具體來說,CAPTURE 引入了一個新的行為模型,該模型考慮了護林員對偷獵軌迹的檢測存在不完美檢測的情況。此外,作者将偷獵者的行為對其過去活動的依賴性納入預測偷獵者行為的考慮範疇。然後,作者采用邏輯模型來制定新模型的兩個組成部分。這使得我們能夠捕捉到攻擊者的總體行為,而不需要已知的偷獵者的數量。最後,CAPTURE 在分析偷獵者的行為時,除了 SUQR 中使用的三 / 四個特征外,還考慮了更豐富的域特征。

第二,作者提供了兩個新的啟發式方法來降低 CAPTURE 中學習對手模型的計算成本,即參數分離和目标抽象。第一種啟發式方法将模型參數集分成獨立的子集,然後在固定其他子集的值的同時,疊代學習這些子集的參數。這種啟發式方法将學習過程分解為不太複雜的學習元件,這有助于在不損失準确性的情況下加快學習過程。目标抽象的第二種啟發式方法是利用野生動物領域的連續空間結構,從森林面積的粗離散化開始學習,逐漸使用更細的離散化而不是直接從最詳細的表示開始,進而改善整體運作時間。CAPTURE 的第三個貢獻是在新的行為模型下計算護林員的最佳巡邏計劃。具體來說,作者為單步 / 多步巡邏計劃提供了一種新的博弈論算法,實作在多個時間步驟中遞歸探索偷獵者的行動(遵循 CAPTURE 模型)。

3.1 行為學習方法

目前,世界各地的野生動物保護區域内設定的安全機構已經收集了大量與保衛者(巡邏者)和對手(偷獵者)之間的互動有關的資料。本文工作聚焦于 QENP[12],通過與野生動物保護協會(the Wildlife Conservation Society,WCS)和烏幹達野生動物管理局(Uganda Wildlife Authority,UWA)合作,作者已經獲得了 12 年間護林員收集的資料。在 CAPTURE 中,作者引入了一個新的分層行為模型來預測野生動物領域的偷獵者的行為,同時考慮到了護林員不完善的觀察軌迹帶來的挑戰。總的來說,新模型由兩層組成。一層是偷獵者攻擊每個目标的機率模型,其中包括偷獵者行為的時間效應。另一層預測的是,在給定偷獵者攻擊目标的情況下,護林員在該目标處檢測到任何偷獵信号的條件機率。然後,将這兩層整合起來以預測護林員的最終觀察結果。在本文的模型中,作者還引入了護林員巡邏對這兩層的影響,即偷獵者如何根據護林員的巡邏來調整他們的行為,以及護林員的巡邏如何決定護林員對偷獵迹象的可探測性。此外,在推理偷獵者的未來行動時考慮了偷獵者過去的活動,還引入不同的域特征來預測攻擊機率或檢測機率或兩者。

令 T 表示時間步驟數目,N 為目标數量,K 為域特征數量。在每個時間步驟 t,每個目标 i 對應特征集合 x_t,i={(x_t,i)^k}。令 c_t,i 表示護林員在 (t,i) 的覆寫機率。當護林員在時間步驟 t 巡邏目标 i 時,他們的觀察結果記為 o_t,i,取值範圍為 {-1, 0, 1}。其中,o_t,i=1 表征有偷獵迹象,o_t,i=0 表征護林員沒有觀察到,o_t,i=-1 表征沒有偷獵迹象。此外,定義 a_t,i 表征(t, i) 處的實際行動,而這一值是不為護林員所知的。其中,a_t,i=1 表征有偷獵,a_t,i=0 表征沒有偷獵。此外,作者做了一個合理性假設,即不存在假陽性觀察,也就是說,如果護林員在某個目标處發現了任何偷獵的迹象,那麼偷獵者确實襲擊了該目标,下式(3.1)、(3.2)。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 15 給出了模型的圖形化展示,其中的有向邊表示模型中各元素之間的依賴關系。其中的灰色節點指的是護林員的已知要素,如域特征、護林員的覆寫範圍和觀察結果,而白色節點代表未知要素,如偷獵者的實際行動。(λ,w)為模型中的參數。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 15.CAPTURE 模組化元素之間的依賴關系

CAPTURE 圖形化模型與以前的行為博弈理論模型(如 QR/SUQR)以及類似的保護生物學模型相比,都有很大的進步。首先,與 SUQR/QR 不同(SUQR/QR 認為偷獵者的行為在不同的時間步驟之間是獨立的),本文假設偷獵者在 a_t,i 的行動取決于偷獵者在 a_t-1,i 的行動和護林員的巡邏政策 c_t,i。這是因為偷獵者可能傾向于回到他們以前偷襲過的地區。第二,CAPTURE 考慮了更豐富的域特征 x_t,i={(x_t,i)^k},這些特征在早期沒有被考慮但在本文模型中與我們的域是相關的,例如,坡度和栖息地。第三,CAPTURE 對域的觀測不确定性進行模組化。最後,本文采用 logistic 模型來預測偷獵者的行為,與 SUQR/QR 相比,這個模型的一個優點是它不假設已知的攻擊者數量,而是獨立地模拟每個目标的攻擊機率。給定時間步驟 (t-1,i) 的偷襲者的真實行動 a_t-1,i、護林員的覆寫機率 c_t,i、域特征 x_t,i,目标是預測偷襲者的攻擊機率,式(3.3):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

其中λ為(K+3)x1 的參數向量,其衡量所有因素對偷獵者決定影響的重要性。

如果攻擊者在 (t,i) 進行攻擊,我們預測護林員能發現任何偷獵迹象的機率如式(3.4):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

其中第一項是護林員在 (t, i) 出現的機率,第二項表示護林員在 (t,i) 巡邏時能發現偷獵迹象的機率。權重 w 表征域特征在影響護林員發現偷獵迹象的機率方面的重要性。後續讨論中為了便于介紹,作者在公式中省略了域特征 x_t,i。

考慮到未觀察到的變量 a = {a_t,i},作者使用标準的期望最大化(EM)方法來估計(λ,w)。具體參數估計過程我們不再贅述,感興趣的讀者可以閱讀原文。

3.2 巡邏計劃

生成 (λ,w) 後,CAPTURE 的下一個任務是計算護林員在接下來的時間步驟中的最佳巡邏路徑政策。作者考慮了兩種情況:1)單步巡邏計劃,在這種情況下,護林員隻關注下一個時間段的巡邏計劃。2)多步巡邏計劃,考慮到護林員的巡邏和觀察曆史以及域特征,多步巡邏計劃用于生成後續ΔT>1 時間步驟的巡邏計劃。前者提供了一個具有即時性的短期效益的單步巡邏計劃,而後者則生成了一個具有長期效益的多步政策。在使用過程中,由護林員來選擇使用哪種計劃方案。對于本文提出的 CAPTURE 模型來說,為護林員設計巡邏計劃的關鍵挑戰是,我們需要考慮到對手(偷獵者)的模組化。這包括護林員的檢測不确定性和偷獵者活動的時間依賴性。這一挑戰導緻了一個複雜的非凸優化問題,以計算護林員的最佳巡邏政策。本文作者提供了一種遊戲理論算法來解決這一問題。

假定護林員的觀測曆史為 o={o_t’,i}。與标準 SSG 類似,作者假設如果偷獵者在 (t,i) 處成功攻擊,護林員會得到一個懲罰 (P_t,i)^d。相對應的,如果偷獵者沒有成功攻擊,則護林員得到獎勵(R_t,i)^d。是以,如果偷獵者在(t,i) 攻擊,護林員在 (t,i) 的預期效用計算如下式(3.5):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

其中,p 表示 (t,i) 處護林員的探測機率。

3.2.1 單步巡邏計劃

給定護林員的觀測曆史 o、模型參數(λ,w),生成後續 T+1 個步驟的最優計劃的公式如(3.6)-(3.8):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

其中,B 為護林員資源總和,p 為偷獵者在 (T+1,i) 處偷獵者的攻擊機率。由于偷獵者的行為取決于他們過去的活動(對陌生人來說是隐藏的),我們需要檢查偷獵者在以前的時間步驟中所有可能的行動,以預測偷獵者在 (T+1,i) 的攻擊機率。作者提出,通過下式計算偷獵者在 (T,i) 處的攻擊機率如式(3.9):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

式 (3.6)-(3.8) 是一個護林員覆寫機率 {c_T+1,i} 的非凸優化問題。式 (3.6) 中護林員效用的每個加法項都是護林員在 (T+1,i) 的覆寫率 c_T+1,i 的單獨子效用函數,下式為(3.10):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

是以,我們可以對 f_i(c_T+1,i)進行分片線性近似,并将式 (3.6)-(3.8) 表示為混合整數規劃(Mixed Integer Program),可以用 CPLEX 解決[13]。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

3.2.2 多步巡邏計劃

作者分析,在為護林員設計多步巡邏計劃時,結合 CAPTURE 模型面臨兩個關鍵挑戰:1)偷獵者行為的時間依賴性。2)偷獵者向護林員隐藏其實際行動(unobserved)。具體的,針對多步問題,後續ΔT 個時間步驟,即 T+1,...,T+ΔR 的最優巡邏計劃可以表示為式(3.11)-(3.13):

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

由于存在上述兩個挑戰,我們需要檢查偷獵者在以前的時間步驟中所有可能的行動,以計算其在 (t,i) 的攻擊機率。作者的想法是通過以前的時間步驟的攻擊機率遞歸計算這個攻擊機率,如下(3.14)-(3.16)所示:

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

初始步驟通過使用 Baum-Welch 方法計算總機率。在這裡,由于偷獵者行為的時間依賴性,公式 (3.14) 中的目标不能再劃分為特定 (t, i) 的單一覆寫機率的獨立子效用函數。是以,我們不能像單步巡邏計劃中那樣應用分片線性近似來快速解決式(3.11)-(3.13)。作者提出使用非凸求解器來解決式(3.11)-(3.13)。

3.3 實驗分析

作者在實驗階段給出了不同場景下的實驗結果,以驗證 CAPTURE 的有效性。為了學習偷獵者的行為,作者使用護林員從 2003 年到 2014 年在 QENP 收集的 12 年的野生動物資料(圖 16 為動物密度)。這項工作是在與野生動物保護協會(WCS)和烏幹達野生動物管理局(UWA)的合作下完成的。在巡邏過程中,公園管理者記錄資訊,如地點(經度 / 緯度)、時間和觀察結果(例如,人類非法活動的迹象)。作者還将收集到的人類迹象分為六組:商業動物(即指偷獵水牛、河馬和大象等商業動物的人類迹象)、非商業動物、漁業、侵占、商業植物和非商業植物。在這項工作中,我們主要關注兩種類型的人類非法活動:商業動物和非商業動物。其中,非商業性動物主要是指針對大象等關鍵物種的主要威脅。然後根據烏幹達的四個季節将偷獵資料分為四個不同的組别:旱季 I(六月、七月和八月),旱季 II(十二月、一月和二月),雨季 I(三月、四月和五月),以及雨季 II(九月、十月和十一月)。我們的目的是學習偷獵者在這四個季節的行為,因為偷獵者的活動通常會随季節變化。最後,基于上述劃分的兩種偷獵類型和四個季節,我們得到了八個不同類别的野生動物資料。此外,在學習偷獵者的行為時還使用了域特征,包括動物密度、坡度、栖息地、淨初級生産力(net primary productivity,NPP)和村莊 / 河流 / 道路的位置。

将野生動物園區域劃分為 1km×1km 的網格,總共包含 2500 多個網格單元。然後将域特征和護林員的巡邏和觀察彙總到網格單元中。進一步的,通過删除所有異常的資料點來完善偷獵資料,如表征護林員在 QENP 野生動物園外進行巡邏的軌迹資料或護林員行動太快的資料點等。由于試圖根據偷獵者過去的活動來預測他們未來的行動,作者采用了一個時間視窗(即 5 年),其中有 1 年的遷移期,将偷獵資料分成 8 對不同的訓練 / 測試集。例如,對于(商業動物,雨季 I)類别,最古老的訓練 / 測試集對應于該類别的四年資料(2003-2006)進行訓練,對應于一年(2007)的資料進行測試。最新的訓練 / 測試集分别指四年(2010-2013)和一年(2014)的資料。總的來說,我們的八個資料類别中的每一個都有八個不同的訓練 / 測試集。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 16. QENP 動物密度

在這項工作中,作者比較了六個模型的預測準确性。1)CAPTURE(參數分離的 CAPTURE);2)CAP-Abstract(參數分離和目标抽象的 CAPTURE);3)CAP-NoTime(參數分離的 CAPTURE,沒有時間效應的成分);4)Logit(邏輯回歸);5)SUQR;6)SVM。作者使用 AUC 來衡量這些行為模型的預測準确度。從本質上講,AUC 指的是一個模型在将這些樣本标記為陽性時,随機的陽性偷獵樣本的權重高于随機的陰性偷獵樣本的機率(是以,AUC 值越高越好)。此外,作者還給出了所有季節的平均預測準确率。作者使用 bootstrap-t 來衡量結果的統計學意義。最終的統計資料分别見表 3 和表 4。CAPTURE 比最先進的技術(SUQR 和 SVM)的預測準确性還有所提高。表 3 中 CAPTURE 的平均 AUC(基本上是四個季節的八個測試集的 32 個資料點)是 0.7475,而 SUQR 是 0.575,在表 4 中是 0.74 而 SUQR 是 0.57。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

表 3. AUC:商業動物

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

表 4. AUC:非商業動物

最後,作者應用 CAPTURE 規劃算法來生成護林員的最佳巡邏計劃。具體針對解決方案的品質評估是基于現實世界的 QENP 與 SUQR 的比較來完成的(護林員對基于 SUQR 的偷獵者的最佳計劃),Maximin(護林員對最壞情況下偷獵者反應的最大化政策)和護林員的真實世界巡邏計劃。鑒于 CAPTURE 的預測準确率是所有模型中最高的,在本文實驗中,作者假設偷獵者的反應遵循 CAPTURE 模型。根據 QENP 的實驗設定,護林員在每個目标的獎勵被設定為零,而懲罰則與動物密度相反。作者根據護林員資源的不同數量(即護林員在巡邏期間可以覆寫的目标數量)來評估所有算法的解決方案品質。此外,還考慮了生成巡邏的不同時間步數。

圖 17 中給出的實驗結果是所有年份和季節的平均數。其中,X 軸是護林員的資源數量,Y 軸是護林員在兩個和四個時間步驟(季節)内分别應用 CAPTURE、SUQR、Maximin 和 Real-world 巡邏計劃所獲得的綜合效用。如圖 17 所示,CAPTURE 規劃算法為護林員提供了最高的效用。特别是當護林員的資源數量增加時,CAPTURE 規劃算法明顯提高了護林員巡邏計劃的品質。此外,CAPTURE 提供的巡邏計劃考慮到了對偷獵者行為的時間影響。是以,當時間步數增加時(圖 17(b)),本文算法與其他算法相比提高了其解決方案的品質。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 17.  CAPTURE 規劃算法生成護林員的最佳巡邏計劃結果比較

CAPTURE 工具可供護林員預測偷獵者的行為并設計最佳的巡邏時間表。不過,在真實情況中并非所有地區對偷獵者都有着相同的吸引力,是以,檢測偷獵者的活動熱點地區并提高對這些地區的保護機率将可能會更加有效。考慮到這一問題的軟體的一般工作流程可以分為以下幾項。1)彙總以前從野生動物園收集的資料,建立一個資料庫,包括域特征、偷獵迹象和護林員保護該地區的努力;2)對資料點進行預處理;3)運作 CAPTURE 工具,預測攻擊機率、護林員對該地區的觀察并生成最佳巡邏計劃;4)對結果進行後期處理并生成相關熱圖。

為了比較 CAPTURE 提供的單步巡邏計劃算法所産生的最佳計劃和目前在該地區部署的實際計劃,作者根據防禦者的覆寫範圍繪制了相關的熱圖,如圖 18(a)和圖 19(a)所示。該地區顔色越深,其被護林員覆寫的機會就越大。另外,作者用 CAPTURE 預測了基于這些巡邏計劃的攻擊機率。這些熱圖顯示在圖 18(b)和圖 19(b)中。地圖上的深色區域顯示了對偷獵者更有吸引力的區域。根據熱圖,我們可以看到以下關鍵點:(i)最佳巡邏計劃覆寫了更多動物密度較高的區域。是以,部署最優計劃将會對動物密度較高的地區提供更多的保護。(ii)如圖 18(a)和 18(b)所示,偷獵熱圖顯示在動物密度較高的地區,攻擊者對人類産生的巡邏的預測活動明顯較高。

AI專用領域之一:聲音、相機陷阱用于野生動物研究和保護

圖 19. CAPTURE 的熱圖(基于最佳政策)

4 文章小結

本文讨論了人工智能的一個專門應用領域:野生動物保護,具體包括了對野生動物的監測和對偷獵者軌迹預測兩個方面。國内外也有大量的研究學者和研究機構在緻力于這項工作,結合不同區域特征、動物特征和生物學需求等開發不同的工具,将不同的人工智能、機器學習方法應用于野生動物保護事業中。人工智能技術需要真正和實際問題結合起來,才能慢慢改變世界,讓勞動力從野外工作的危險和枯燥解脫出來。我們也希望看到越來越多的人工智能技術能夠應用于類似的領域,讓整個世界變得更加美好。

部分參考引用的文獻

[1] Eric J. Howe, Stephen T. Buckland, Marie-Lyne Despres-Einspenner, and Hjalmar S. Kuhl. Distance sampling with camera traps. Methods in Ecology and Evolution, 8(11):1558{1565, 2017. doi: 10.1111/2041-210X.12790. URL

https://besjournals.onlinelibrary.wiley.com/doi/abs/10.1111/2041-210X.12790.

[2] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross B. Girshick. Mask R-CNN. CoRR, abs/1703.06870, 2017. URL

http://arxiv.org/abs/1703.06870.

[3] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen Lo, and Ross Girshick. Detectron2.

https://github.com/facebookresearch/detectron2,

2019.[4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. CoRR, abs/1512.03385, 2015. URL

http://arxiv.org/abs/1512.03385.

[6] Z. Xu, S. Liu, J. Shi, and C. Lu. Outdoor rgbd instance segmentation with residual regretting learning. IEEE Transactions on Image Processing, 29:5301{5309, 2020. doi: 10.1109/TIP.2020.2975711.[7] Blender Foundation. Blender - a 3D modelling and rendering package, 2018. URL

http://www.blender.org

(http://www.blender.org/).[8] Timm Haucke,Volker Steinhage, Exploiting Depth Information for Wildlife Monitoring, 2021,

https://arxiv.org/abs/2102.05607v1

[9] Chalmers, C. , et al. "Modelling Animal Biodiversity Using Acoustic Monitoring and Deep Learning." (2021).https://arxiv.org/abs/2103.07276 [10] Beale, C. M. , et al. "CAPTURE: A New Predictive Anti-Poaching Tool for Wildlife Protection." International Foundation for Autonomous Agents and Multiagent Systems(2016).https://pure.york.ac.uk/portal/en/publications/capture(a5f3ca8c-9a4e-4366-af26-095154c2f7d6).html[11] F. Fang, T. H. Nguyen, R. Pickles, W. Y. Lam, G. R. Clements, B. An, A. Singh, M. Tambe, and A. Lemieux. Deploying paws: Field optimization of the protection assistant for wildlife security. In IAAI, 2016.[12] R. Critchlow, A. Plumptre, M. Driciru, A. Rwetsiba, E. Stokes, C. Tumwesigye, F. Wanyama, and C. Beale.Spatiotemporal trends of illegal activities from ranger-collected data in a ugandan national park. Conservation Biology, 2015.[13] R. Yang, F. Ordonez, and M. Tambe. Computing optimal strategy against quantal response in security games. AAMAS, 2012.