天天看點

分析、提煉和闡述研究領域的CAS的基本特點和機制

作者:教育書評

複雜自适應系統(Complex adaptive stems,簡稱CAS)由适應性主體互相作用、共同演化并層層湧現出來的系統。任何CAS的模組化工作,主要都歸結為選擇和描述有關的刺激和反應,因為各個分主體的行為和政策都由此而确定。在CAS中,任何特定的适應性主體所處環境的主要部分,都由其他适應性主體組成,是以,任何主體在适應上所做的努力就是要去适應别的适應性主體。

霍蘭圍繞适應性主體這個最核心的概念提出了在複雜适應系統模型中應具備的七個基本特性, CAS的7個基本點包括對所有CAS都通用的4個特性和3個機制,分别是聚集、非線性、流、多樣性、标志、内部模型以及積木。其中前四個是複雜适應系統的通用特性, 它們将在适應和進化中發揮作用; 後三個則是個體與環境進行交流時的機制和有關概念。

目前我所初步定的研究方向為基于深度強化學習的電動汽車充電站推薦,接下來将結合電動汽車充電站推薦的研究領域,分析、提煉和闡述其CAS的基本特點和機制,具體分析如下:

(1) 基于深度強化學習的電動汽車充電站推薦領域的聚集

聚集有兩個含義, 第一個含義是指簡化複雜系統的一種标準方法, 即是把相似的主體聚內建類, 互相作用, 這是指主體聚集的條件。在這個意義上講, 聚集是建構複雜适應系統模型的主要手段之一。聚集的第二個含義是指較為簡單的主體的聚集互相作用, 必然會湧現出複雜的大尺度行為。

在我所研究的深度強化學習的電動汽車充電樁領域,我認為其CAS的基本特點聚集,主要通過使用智能交通中心接收到的監控資料來建構交通矩陣和網絡拓撲的交通資訊預處理過程,在這個過程中,交通網絡可以模組化為權重有向圖,并為每條連結配置設定權重,并且通過Dijkstra算法獲得最短時間路徑。

(2) 基于深度強化學習的電動汽車充電站推薦領域的非線性

非線性指主體以及它們的屬性在發生變化時, 并非遵從簡單的線性關系。複雜适應系統理論認為個體之間互相影響不是簡單的、被動的、單向的因果關系, 而是主動的适應關系。在這種情況下, 線性的、簡單的、直線式的因果鍊已經不複存在, 實際的情況往往是各種回報作用(包括負回報和正回報)互動影響的、互相纏繞的複雜關系。

在電動汽車充電站推薦的充電站資訊預處理過程,就是非線性的。充電站資訊預處理過程主要是與分布在城市周圍的所有充電站進行通信,并估計未來電動汽車充電請求的充電等待時間。從充電站接收的充電狀态資訊包括正在充電的電動汽車數量和正在等待的電動汽車數量。在充電站資訊預處理過程中,使用此資訊來計算所有充電站的可用充電時間和預期等待時間。此外,可用充電時間和預期等待時間用于特征提取過程。

(3) 基于深度強化學習的電動汽車充電站推薦領域的流

流可以看成是有着衆多節點與連接配接者的某個網絡上的某種資源的流動。一般來說, 節點即是指主體, 而連接配接者表明可能的互相作用。在複雜适應系統中, 網絡上的流動因時而異, 節點和連接配接會随着主體的适應和不适應而出現或消失。是以, 無論是流還是網絡, 皆随時間而變化, 它們是随着時間的流逝和經驗的積累而反映出變易适應性的模式。

關于電動汽車充電站推薦領域的特征提取過程,就有無數的流經過網絡。在特征提取過程中,将交通資訊預處理過程、充電站資訊預處理過程和電動汽車擷取的資訊作為輸入。特征提取為每個充電站提取對應請求的特征狀态,例如預期行駛時間、行駛距離、到達時間和充電時間。特征提取所得的特征将作為充電站選擇過程的輸入,即馬爾可夫決策過程模型中的狀态。為了獲得電動汽車的預期到達時間、充電時間和充電量等特征,首先要選擇從電動汽車目前位置到充電站的路線,即流。

(4) 基于深度強化學習的電動汽車充電站推薦領域的多樣性

複雜适應系統的多樣性是一種動态模式, 其多樣性是複雜适應系統不斷适應的結果。每一次新的适應都為進一步的互相作用和新的生态位開辟了可能性。如果與前面講到的聚集結合起來看, 這就是系統從宏觀尺度上看到的結構的湧現, 即所謂自組織現象的出現。

采用Dijkstra算法和權重圖,來尋找每個充電站的最短時間路徑,并根據該路徑,計算到達充電站的預期時間。建構了電動汽車的能耗模型和時間模型,分别表示了充電站狀态和交通狀況。

(5) 基于深度強化學習的電動汽車充電站推薦領域的标志

在聚集體形成的過程中, 始終有一種機制在起作用, 這種機制就是标志。在複雜适應系統理論中, 标志是為了聚集和邊界生成而普遍存在的一個機制。标志能夠促進選擇性互相作用, 為了互相識别和選擇, 主體的标志在主體與環境的互相作用中是非常重要的。設定良好的、基于标志的互相作用, 為篩選、特化和合作提供了合理的基礎, 這就使介主體群組織結構得以湧現。标志是隐含在複雜适應系統中具有共性的層次組織結構背後的機制。

當電動汽車提出充電請求後,充電導航中心計算出相應的預期總時間。在DQN的訓練中,預期總時間作為MDP的獎勵函數。描述充電站的特征狀态,且這些特征狀态是在目前時間節點下的估計值,即是标志。

(6) 基于深度強化學習的電動汽車充電站推薦領域的内部模型

霍蘭用内部模型來定義實作主體實作某項功能的機制。在複雜适應系統中, 當适應性主體接收到大量湧入的輸入時, 就會選擇相應的模式去響應這些輸入, 而這些模式最終會凝固成具有某項功能的結構——内部模型。

基于深度強化學習的電動汽車充電站推薦研究将路徑和充電站推薦問題模組化為轉移機率已知的MDP。MDP是序列決策制定問題的一種典型形式,由有限狀态空間、有限動作集、轉移機率和獎勵函數構成。即為本研究領域的内部模型。

(7) 基于深度強化學習的電動汽車充電站推薦領域的積木

複雜系統常常是在一些相對簡單的部件的基礎上, 通過改變它們的組合方式而形成的。是以, 事實上的複雜性往往不在于塊的多少和大小, 而在于原有積木的重新組合。概括地說,思路如下: 把下一層次的内容和規律作為内部模型封裝起來, 作為一個整體參與上一層次的互相作用, 暫時忽略或擱置其内部細節, 而把注意力集中于這個積木和其他積木之間的互相作用和互相影響, 因為在上一層次中, 這種互相作用和互相影響是關鍵性的、起決定性作用的主導因素。

在電動汽車充電站推薦的過程中,深度強化學習模型的作用其實就是積木的一個過程,使用深度Q值網絡為電動汽車推薦最佳路線和充電站。

分析、提煉和闡述研究領域的CAS的基本特點和機制

以上就是結合電動汽車充電站推薦的研究領域,分析、提煉和闡述其CAS的基本特點和機制的全部内部。