天天看點

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

作者:章不才
無人機輔助智能農場網絡中任務解除安裝的深度強化學習
無人機輔助智能農場網絡中任務解除安裝的深度強化學習

1.前言

随着無線網絡通信的越發強大,“秀才不出門,便知天下事”已經成為常态,無人機、人工智能在農業上也越發重要,自動監控農田,進而改善農業景觀,執行大量圖像分類任務,以防止在發生火災或洪水等事件時對農場造成損害,但以目前的科技來講,無人機的能量和計算能力有限,可能無法執行所有密集的圖像分類任務,如何提高無人機的能力成了重中之重。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

2 .相關工作

利用強化學習(RL)來管理無線網絡資源以優化性能在許多不同應用中得到廣泛研究。調查了AI在5G和6G網絡中的挑戰和機遇。如能源管理和無線電資源配置設定。在6G中使用AI實作能源效率将是必不可少的。此外,有人提出了一種深度RL方法,用于通過解除安裝解決最大化計算和最小化能耗的聯合優化問題,用于5G及更高版本的網絡。

他們的網絡還利用MEC伺服器作為處理單元,以協助其網絡進行計算密集型任務。同樣,有人在工業物聯網環境中引入了深度RL算法。隻為找到一種最優的虛拟網絡功能放置和排程政策,以最小化端到端延遲和成本。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

在智能農場中使用無人機的研究上,詳細介紹了如何使用無人機捕捉航拍圖像,并使用圖像分類來識别田地中的作物和雜草。使用無人機噴灑殺蟲劑的想法,并讨論了延遲和電池使用之間的權衡。

在5G及更高版本的網絡中,同時使用無人機和MEC裝置對于應用程式是有益的。針對不同應用程式,如空間-空氣-地面網絡和緊急搜尋和救援任務,提供了關于使用無人機和MEC的廣泛調查。此外,也讨論了使用無人機為6G車聯網應用程式提供連接配接的可能性。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

優化無人機的能源消耗和延遲的現有方法并不僅限于智能農場場景。例如,通過優化以下參數“使用者關聯,功率控制,計算能力配置設定和位置規劃”來減少功耗。考慮了由衛星、無人機、地面基站和物聯網裝置組成的網絡。使用深度RL作為任務排程解決方案,以在考慮無人機能量限制的同時最小化處理延遲。或者,使用聚類和軌迹規劃來優化能源效率和任務延遲時間。

此外,在無人機群體場景中使用博弈論解決方案來解決任務解除安裝問題。雖然我們在探索類似的問題,但我們專注于通過DQL共同解決能量和任務延遲優化問題。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

3. 系統模型

我們的網絡由一組無人機j ∈ J組成。它們可以與物聯網裝置z ∈ Z、其他無人機和一組MEC伺服器l ∈ L進行通信。每個無人機都有一個最大容量為ΥBj的電池。無人機和MEC裝置都具有處理能力,j0 ∈ J +,它們可以處理物聯網裝置的任務。

在時間t ∈ T,物聯網裝置可以将K種類型的任務解除安裝到無人機(αBjt)。每種任務類型都有預定義的截止日期αDjt,以及處理單元執行此類任務所需的時間αPjt。目标是為每個無人機找到一個排程算法,以便以一種方式将每個任務配置設定給處理單元,使得任務能夠在其截止日期之前完成,并且最大化無人機的懸停時間。這兩個目标合并形成我們的多目标最大化問題,最大化:

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

其中W代表最大化懸停時間目标的重要性,ΥRj0代表一個無人機的剩餘電量,vjt代表已發生的任務截止日期違規次數,Θ是用于歸一化v的縮放因子。第一個目标是最大化最低剩餘電量,以延長無人機網絡的懸停時間。無人機的剩餘電量ΥRj0可以計算如下:

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

其中ΥBj0表示電池容量,ΥHj0表示無人機懸停所需的能量,ΥAj0表示天線傳輸信号所需的能量,ΥIj0表示處理單元在空閑模式下消耗的能量,T表示模拟時間,ΥCj0表示無人機在完成任務時消耗的能量。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

pjtj0t0是一個二進制決策變量,如果處理單元j0處理任務,則等于1。處理單元延遲∆jt是任務必須保留在處理單元隊列中的總次數,加上任務的處理延遲αPjt。處理單元延遲由以下公式給出:

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

p+jtj0t0是一個二進制決策變量,如果它是處理單元j0開始處理任務的時間間隔t0,則等于1,t0是任務在處理單元j0上開始處理的時間間隔,t是任務到達處理單元j的時間間隔。

在時間t發生截止日期違規vjt,當物聯網到無人機的傳輸延遲Δzjt,處理單元延遲Δjt和處理單元之間的傳輸延遲Δj0t0的總和超過任務的截止日期αDjt時。這可以表示為一個數學公式:

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

xjtj0用于确定任務是否在處理單元j0上完成。當任務将在處理單元j0上執行時,它被設定為1,否則将設定為0。為了避免乒乓效應,一個任務隻能被解除安裝一次。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

在傳統的 Q-Learning 中,Q 值存儲在 Q 表中。當代理需要做出決策時,它會在 Q 表中查找目前狀态,并選擇具有最高 Q 值的動作。Q 值衡量了在給定狀态下該動作的未來累積折扣獎勵。在每個時間步長,代理都會執行一個動作并觀察環境的回報,然後更新 Q 表以反映新的知識。

在深度 Q-Learning 中,我們使用一個深度神經網絡來代替 Q 表。神經網絡的輸入是狀态,輸出是每個動作的 Q 值估計。代理選擇具有最高 Q 值估計的動作。在每個時間步長,代理執行動作并觀察環境的回報,然後使用回報來訓練神經網絡。這種方法可以處理更複雜的狀态空間,并且不需要顯式地維護 Q 表。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

在 DQL 中,代理執行選擇的動作後,該狀态-動作對的 Q 值在 Q 表中更新,代理移動到另一個狀态。由于計算機的有限記憶體,Q-Learning 的狀态空間和動作空間是有限的。在 DQL 中,我們使用 DNN 來預測給定狀态下每個動作的 Q 值,而不是在 Q 表中查找 Q 值。代理選擇并執行動作後,代理的經驗被收集。

經驗是一個元組,包括代理的目前狀态、下一個狀态、動作和獎勵。經驗存儲在稱為經驗回放的緩沖區中,并且該緩沖區用于訓練 DNN。随着經驗的增加,DNN 變得更準确地預測每個動作的 Q 值。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

網絡中的每個無人機都将有自己的 MDP 架構。在這個問題中,無人機是代理,它們從物聯網裝置接收任務,并必須決定任務将在哪裡處理。在無人機将任務發送到适當的處理單元後,無人機的電池電量會發生變化,處理單元的延遲也會發生變化,并将這些變化報告給無人機。無人機必須選擇能夠最小化截止日期違規和能量消耗的處理單元,進而獲得最高的獎勵。MDP 定義如下:

狀态:狀态包括解除安裝的任務類型 k,所有處理單元延遲 ∆j0∈J+,每個無人機 ΥLj0∈J 的電池電量和每個無人機與 MEC 裝置之間的傳輸延遲 ∆j1∈J+t∈Tj2∈J+。狀态定義為:

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

獎勵函數分為兩部分,分别是電池電量獎勵(ΥL_ja-1)和截止日期違規懲罰(1-E(vja)+V_L_ja*E(vja))。ΥL_ja獎勵代理選擇不會導緻能量消耗顯著增加的行動。其中e指的是能量消耗變化的門檻值。V_L_ja懲罰代理選擇導緻截止日期違規的行動。

如果通過将任務解除安裝到另一個處理單元可以避免截止日期違規,則懲罰會更嚴厲。如果截止日期違規是不可避免的,則懲罰會較輕,因為不存在更好的計算位置。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

4.基準方法

1.循環排程(RR):網絡中具有處理單元的每個裝置j0∈J+都被配置設定一個從1到J+的順序。目前無人機将按照有序清單循環,确定任務解除安裝的位置。

2.最高能量優先(HEF):無人機定期更新彼此的電池電量。目前無人機首先找到剩餘電量最高的裝置。如果目前能量水準與最高能量水準之間的差異超過1%,則将任務解除安裝到具有最高能量水準的無人機上,否則在本地計算任務。

由于MEC裝置具有無限電力,我們必須限制任務發送到MEC的次數。每個MEC裝置的選擇機率為1 / J +。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

3.最低隊列時間和最高能量優先(QHEF):無人機定期更新彼此的電池電量和隊列時間。首先,該算法找到最短的排隊時間。然後,無人機找到具有最高能量水準且隊列時間低于或等于最小隊列時間的裝置。如果最高能量水準比目前能量水準高一個門檻值,則目前無人機将任務解除安裝到該裝置上。否則,無人機将在本地計算該任務。

4.Q-Learning:我們使用了提出的Q-Learning算法。Q-Learning算法中定義的動作集,獎勵函數和epsilon-greedy政策。 Q-Learning算法的狀态相同,但沒有傳輸延遲∆j1∈J +t∈Tj2∈J +。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

5.性能評估

我們使用 Simu5G,一個運作在 Omnet++ 上的 5G 網絡仿真器,來模拟我們的智能農場網絡。在我們的模拟中,有四個無人機(J=4)和一個 MEC 裝置(L=1)。有三種任務類型:火災檢測、病蟲害檢測和生長監測。

任務到達時間間隔被模組化為指數分布,每種任務類型都有獨特的平均到達速率和處理時間。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習

剩餘電量和延遲違規結果是使用不同的種子值進行十次運作的平均值。對于 Q-Learning 和 Deep Q-Learning,假定學習率為 0.05,折扣值為 0.85。為了與參考文獻 [6] 進行比較,我們使用了他們的能量消耗模型和參數。在電池類型和懸停功耗公式方面,我們也做出了相同的假設。

模拟無人機在整個仿真過程中的能量水準,每個能量消耗參數的值(以瓦時為機關)如下:最大電池容量 (ΥBj0) 等于 570,懸停 (ΥHj0) 等于 211,天線等于 17,空閑處理單元等于 4320,活動處理單元等于 12960。

無人機輔助智能農場網絡中任務解除安裝的深度強化學習
無人機輔助智能農場網絡中任務解除安裝的深度強化學習

6.結論:

我們提出了一種基于深度強化學習的算法,以提高現有Q-Learning算法的收斂速度。算法的深度學習部分還允許我們将更多的觀測值納入狀态中,是以我們的決策算法比Q-Learning具有更多的資訊。我們将所提出的算法與四種基準算法RR、HEF、QHEF和Q-Learning進行了比較,結果表明,DQL算法的收斂速度比Q-Learning快13倍。

最後,DQL在剩餘能量百分比和截止日期違規百分比方面與Q-Learning具有可比性。是以,它是我們聯合優化問題的更優解決方案,能夠比Q-Learning更快地達到最優解。未來,我們計劃進一步減少收斂時間,并解決可擴充性問題。

參考文獻:

[1] A. D. A. Aldabbagh, C. Hairu, and M. Hanafi, “使用深度學習對辣椒植物生長進行分類,” 2020 年 IEEE 第十屆系統工程與技術國際會議 (ICSET) 論文集,pp. 213–217,IEEE,2020年11月。

[2] Y. Lina 和 Y. Xiuming,“基于圖像分類算法的智能害蟲監測系統設計,”2020年第三屆控制與機器人國際會議 (ICCR) 論文集,pp. 21–24,IEEE,2020年12月。

[3] J. Zhao、Y. Wang、Z. Fei 和 X. Wang,“智能農場中具有延遲限制的最大化有效資料的無人機部署設計,”2020年 IEEE/CIC 中國通信國際會議 (ICCC) 論文集,pp. 424–429,IEEE,2020年8月。

[4] S. Zhang、H. Zhang 和 L. Song,“超越 D2D:6G 中的全次元無人機通信,”IEEE 交通技術雜志,第 69 卷,pp. 6592–6602,2020年。