最優控制LQR求解LQR求解過程，疊代求解求解結果

2023-03-07 19:14:24

LQR

Problem

xt+1=Axk+Buk

xk:state at time tuk:input at time t

It assumes a quadratic cost function :

J=∑n=0N−1 ( xTnQxn+uTnRun ) + xNPxN

with Q,R,P 正定

這裡讨論的求解lqr是，在有模型的限制下面，以及初始條件 x0 , 求解使性能名額最小的u 以及 x

求解過程，疊代求解

先定義cost-to-go function

Ji(xi)=∑n=iN−1(xTnQxn+uTnRun)+xTNPxN

可以了解為從第i時刻開始以初始條件為 xi 到最後産生的性能名額

推導的思想采用動态規劃的思想，就是如果想要 J 最小，我們可以通過疊代求解cost-to-go function的最小值來實作。

那麼可以很簡單的推導為：

JN(xN)=xTNPxNJN−1(xN−1)=xTN−1QxN−1+uTN−1RuN−1+JN(xN)

這裡再把模型的限制 xt+1=Axk+Buk 帶入可以得到

JN−1(xN−1)=xTN−1QxN−1+uTN−1RuN−1+JN(AxN−1+BuN−1) (1)

為了推導友善，這裡将（1）中的 xN−1,uN−1 替換成 x,u

那麼：

JN−1(x)=xTQx+uTRu+(Ax+Bu)TP(Ax+Bu) (2)

将（2）對u求梯度然後令其為0可以得到：

∇u{(2)}=2Ru+2BTP(Ax+Bu)=0

u=−(R+BTPB)−1BTPAx (3)

将（3）帶入（2），令 (R+BTPB)−1BTPA=k ，即 u=−kx

JN−1(x)=xTP^xP^=Q+kTRk+(A−Bk)TP(A−Bk)

這裡可以看到求解後發現， JN−1 最後也可以寫成 xTPx 的形式，隻是P要更新，是以可以疊代的像後面求解，而且結果都是統一的形式

求解結果

loop for i = N-1 : i>=0 : i–

k=(R+BTPB)−1BTPAui=−kxP=Q+kTRk+(A−Bk)TP(A−Bk)

最優控制LQR求解LQR求解過程，疊代求解求解結果

LQR

Problem

It assumes a quadratic cost function :

with Q,R,P 正定

求解過程，疊代求解

先定義cost-to-go function

可以了解為從第i時刻開始以初始條件為 xi 到最後産生的性能名額

推導的思想采用動态規劃的思想，就是如果想要 J 最小，我們可以通過疊代求解cost-to-go function的最小值來實作。

那麼可以很簡單的推導為：

這裡再把模型的限制 xt+1=Axk+Buk 帶入可以得到

為了推導友善，這裡将（1）中的 xN−1,uN−1 替換成 x,u

那麼：

将（2）對u求梯度然後令其為0可以得到：

将（3）帶入（2），令 (R+BTPB)−1BTPA=k ，即 u=−kx

這裡可以看到求解後發現， JN−1 最後也可以寫成 xTPx 的形式，隻是P要更新，是以可以疊代的像後面求解，而且結果都是統一的形式

求解結果

loop for i = N-1 : i>=0 : i–

這樣疊代完畢後會得到 {u0,u1,...,uN−1}

繼續閱讀

線性二次調節器（LQR）線性二次調節器（LQR）

機器學習-邏輯回歸模型公式推導LR介紹

詳解Python清單推導(list comprehension)清單推導的優勢

貝塞爾曲線介紹及一階、二階推導

dip1000可逃逸嵌套函數傳回的域指針

NLP學習筆記35 CRF

透視矩陣的推導（最直覺、最深入、最還原，看完請點贊。）

線性回歸算法推導

d遞歸和屬性推導

基于LQR的一階倒立擺控制仿真(1)LQR簡介(2)LQR的特點(3)LQR針對的問題(4)LQR應用原理

基于LQR的二級倒立擺模組化與MATLAB仿真1、系統模組化2、MATLAB程式

最優控制的了解最優控制

二次型最優控制(一)

最優控制理論總結——變分法

模型預測控制算法（MPC算法）底層邏輯

EM算法（1）—— 徹底了解EM算法推導0. 補充1. 引入2. EM算法3. 用EM算法解三硬币問題

最優控制LQR求解LQR求解過程，疊代求解求解結果

LQR

Problem

It assumes a quadratic cost function :

with Q,R,P 正定

求解過程，疊代求解

先定義cost-to-go function

可以了解為從第i時刻開始以初始條件為 xi 到最後産生的性能名額

推導的思想采用動态規劃的思想，就是如果想要 J 最小，我們可以通過疊代求解cost-to-go function的最小值來實作。

那麼可以很簡單的推導為：

這裡再把模型的限制 xt+1=Axk+Buk 帶入可以得到

為了推導友善，這裡将（1）中的 xN−1,uN−1 替換成 x,u

那麼：

将（2）對u求梯度然後令其為0可以得到：

将（3）帶入（2）， 令 (R+BTPB)−1BTPA=k ， 即 u=−kx

這裡可以看到求解後發現， JN−1 最後也可以寫成 xTPx 的形式，隻是P要更新，是以可以疊代的像後面求解，而且結果都是統一的形式

求解結果

loop for i = N-1 : i>=0 : i–

這樣疊代完畢後會得到 {u0,u1,...,uN−1}

繼續閱讀

将（3）帶入（2），令 (R+BTPB)−1BTPA=k ，即 u=−kx