天天看點

《中國人工智能學會通訊》——11.36 非線性系統 H∞ 最優控制

由于 H ∞控制是一種十分有效的處理動态系統的外界擾動的方法[17] ,H ∞控制一直是控制界學者的研究的熱點。雖然 H ∞控制理論取得了一系列的成果[18-21] ,但是求解 Hamilton-Jacobi-Isaacs (HJI)方程是限制 H ∞ 控制理論實際應用的瓶頸。這是由于 HJI 方程固有的非線性特性,很難得到其解析解。為了獲得 HJI 方程的近似解,ADP 方法被應用并且獲得廣泛關注[22-24] 。值得注意的是 , 現有求解離散非線性系統 HJI 方程的 ADP 方法[22,25-27] ,可以分為兩類。第一類是采用離線方式求解 HJI 方程,然後将得到的最優控制政策作為線上實時控制器。然而,如果系統參數發生變化後,那麼對于新系統而言,原有控制器已經不再是最優控制器。第二類是,不管是線上還是離線的疊代 ADP 算法,都是采用政策疊代或值疊代的評價網 / 執行網架構結構,其在求解方程過程中都會有兩個以上的疊代循環,這樣的過程将會帶來備援的疊代循環,導緻求解 HJI方程的效率較低。

為了克服現有求解 HJI 方法的不足,我們提出了一個基于 ADP 線上自适應政策學習算法。該算法能夠利用系統實時資料得到系統 HJI 方程的解,進而得到系統的實時控制器。首先利用神經網絡作為線上參數結構來近似代價函數,即評價網絡。在給定的容許控制下 , 利用 Lyapunov 理論證明了評價網絡權值估計誤差是一緻最終有界性。接着,再利用神經網絡作為線上參數結構分别設計了執行網絡和擾動網絡。其中執行網絡依據評價網絡提供的資訊線上學習控制輸入信号使代價函數最小化,以獲得最優的控制政策;而擾動網絡依據評價網絡提供的資訊線上學習擾動輸入信号使代價函數最大化,以獲得最壞的擾動政策。然後,在考慮神經網絡近似誤差的基礎上,依據 Lyapunov 理論證明了系統狀态和所有的網絡權值估計誤差都是一緻最終有界性,并且能夠保證所獲得的控制輸入在最優控制輸入的一個小的鄰域内。仿真執行個體證明了所提算法的有效性,控制器能夠保證系統具有良好的控制性能。

繼續閱讀