天天看點

《中國人工智能學會通訊》——11.37 非線性切換系統最優控制

在現實世界中具有廣泛的應用,切換系統一直是控制界學者的研究的熱點[28-31] 。然而大多數切換系統的執行器具有飽和非線性,這是由于實際的執行器都存在實體特性的限制。如果忽略飽和特性的影響,那麼不僅會導緻降低閉環系統的性能,還有可能導緻系統的不穩定,因而引起了許多學者的研究興趣,出現了許多研究成果[32-34] 。然而,目前研究成果隻是注重了帶有執行飽和的切換系統的穩定性,卻沒有考慮系統的最優控制問題。

對于切換系統的最優控制問題,不僅需要設計切換系統的最優回報控制,還要設計切換系統的最優切換序列[35-39] 。另外,切換系統的哈密頓-雅可比-貝爾曼 (Hamilton-Jacobi-Bellman, HJB) 方程是一個具有多變量的非線性差分方程或微分方程,而求解這樣的 HJB 方程是十分困難的,很難得到方程的解析解[35] 。如果切換系統的執行器是飽和的 , 那麼相應的 HJB 方程是一個受限制的 HJB 方程 , 就更難得到其解析解。另一方面,現有解決切換系統的最優控制問題的方法[35,38]都是基于動态規劃的。而動态規劃是采用反向遞推求解最優問題,相應的計算量和存儲量會随着系統的複雜性的增加而急劇增加,形成所謂的動态規劃的“維數災”問題[13] ,這将導緻無法得到最優解[28] 。

為此,我們給出了一種疊代兩級二次啟發式規劃 (Dual Heuristic Programming, DHP) 算法來解決帶有飽和執行器的離散非線性切換系統的最優控制問題。首先,利用一個非二次型泛函解決執行飽和問題,并給出切換系統的限制 HJB 方程,保證所得到的最優控制函數在飽和執行器内是光滑函數。其次,基于兩級最優法和疊代二次啟發式規劃算法,推導出一種新異的疊代兩級 DHP 算法用來求解限制 HJB 方程。在疊代兩級 DHP 算法中,每步疊代的協狀态函數是由一組光滑函數的集合表征的。并證明了通過疊代兩級 DHP 算法得到的值函數序列收斂于 HJB 方程最優代價函數。為了執行疊代算法,通過利用神經網絡作為參數結構來分别近似協狀态函數和控制律,并給出疊代求解的具體步驟。

繼續閱讀