天天看點

偏最小二乘(Partial Least Squares,PLS)原理及模型建立

随着對資料驅動的工業檢測與診斷方法的逐漸深入,過程監測的多元統計需要總結的東西越來越多,那麼今天來整理一下。

内容較多,理論較複雜,建議細品,你品!最好推一遍~

It’s time to conclude PLS!!!

PCA和偏最小二乘(PLS)是從資料中描述正常情況的首選方法。

天氣熱,冰涼一下吧~

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

偏最小二乘法(PLS)

基本原理

偏最小二乘多用于尋求兩個矩陣(X和Y)的基本關系,也就是一種在這兩個向量空間中對協方差結構模組化的隐變量方法。

偏最小二乘模型将試圖找到X空間的多元方向來解釋Y空間方差最大的多元方向。

偏最小二乘回歸特别适合當預測矩陣比觀測的有更多變量,以及X的值中有多重共線性的時候。通過投影預測變量和觀測變量到一個新空間來尋找一個線性回歸模型。

公式

偏最小二乘回歸 ≈ ≈≈ 多元線性回歸分析 + ++ 典型相關分析 + ++ 主成分分析

特點

與傳統多元線性回歸模型相比,偏最小二乘回歸的特點是:

(1)能夠在自變量存在嚴重多重相關性的條件下進行回歸模組化;

(2)允許在樣本點個數少于變量個數的條件下進行回歸模組化;

(3)偏最小二乘回歸在最終模型中将包含原有的所有自變量;

(4)偏最小二乘回歸模型更易于辨識系統資訊與噪聲(甚至一些非随機性的噪聲);

(5)在偏最小二乘回歸模型中,每一個自變量的回歸系數将更容易解釋。

在計算方差和協方差時,求和号前面的系數有兩種取法:當樣本點集合是随機抽取得到時,應該取1/(n-1);如果不是随機抽取的,這個系數可取1/n。

在過程監控中,PLS類型的監控,包括非線性PLS,使用品質資料指導過程資料的分解,并提取與産品品質最相關的潛在變量。由于使用了品質資料,在品質相關性方面的診斷能力得到了增強,誤報率降低。

首先讓我們回顧一下 CCA 的知識。在CCA中,我們将X和Y分别投影到直線得到U和V,然後計算u和v的Pearson系數(也就是Corr(u,v)),認為相關度越大越好。形式化表示:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

關于CCA的缺點:對特征的處理方式比較粗糙,用的是線性回歸來表示U和X的關系,U也是X在某條線上的投影,是以會存線上性回歸的一些缺點。我們想把PCA的成分提取技術引入CCA,使得U和V盡可能更多的攜帶樣本的最主要資訊。Most important thing!CCA是尋找X和Y投影後U和V的關系,通過系數矩陣求其最優解使得R ( U , V )最大,顯然不能通過該關系來還原出X和Y,也就是找不到X到Y的直接映射。這也是使用CCA預測時大多配上KNN的原由吧。(關于KNN算法後續本菜研究後更新)

PLS兼顧了PCA和CCA,解決了X和Y在投影上映射問題

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

PLS算法

偏最小二乘(Partial Least Squares,PLS)原理及模型建立

簡而言之,為了實作偏最小二乘回歸的基本思想,要求p1和q1的協方差最大,即求解下面優化後的目标函數:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立

看似比CCA的簡單,這裡附上CCA的目标函數:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立

上面CCA是一次求解的過程,而我們的PLS回歸隻是對目前的第一主成分做了優化計算,剩下的主成分還得再計算。

關于優化的目标求解的辦法,和CCA一樣,也是引用了拉格朗日乘數法來求解。(下面給出詳細計算步驟)

首先,引入拉格朗日乘子:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

PLSR 回歸算法

讓我們回到上面的介紹,從建立立我們的回歸方程:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立

這裡的c cc和d dd不同于上面的p 和q ,但是它們之間有一定聯系,待會下面證明。其中,E 和G 是殘差矩陣。

然後,進行以下幾步操作:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

手繪大緻流程圖

PLS 模型

雖然類似PCA的過程監控可以檢測和診斷過程資料中的異常情況,但它無法判斷檢測到的異常情況是否會導緻産品品質問題。這是PCA從業者經常提出的投訴,如監測和幹擾警報,若檢測到的過程故障最終不會導緻品質問題,則會發生。

為了檢測與品質相關的過程問題,PLS模型用于利用品質輸出資料中的資訊劃分輸入資料空間,如下圖所示。PLS還将輸入空間劃分為以PLS分數為特征的主子空間和與分數互補的剩餘子空間。早期文獻表明,主子空間由T2監控,T2被認為反映了與Y相關的主要變化,剩餘子空間由Q監控,Q被認為包含與輸出Y無關的變化。

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

CPLS 模型(潛在結構的并行投影)

最近讀的一篇Paper提出了一種并行PLS(CPLS)算法和相關監測名額,以提供對輸出變化的完整監測,并将輸入資料空間簡潔地分解為輸出相關子空間和輸入相關子空間。

下面具體介紹模型建立的思路。

為了提供品質資料和過程操作資料的完整監控方案,提出了一種并行PLS(CPLS)模型,以實作三個目标:(i)從标準PLS投影中提取與輸出的可預測變化直接相關的分數,形成協變量子空間(CVS)(ii)将不可預測的輸出變化進一步投影到輸出主子空間(OPS)和輸出剩餘子空間(ORS),以監測這些子空間中的異常變化;和(iii)将與預測輸出無關的輸入變化進一步投影到輸入主子空間(IPS)和輸出子空間(IRS),以監測這些子空間中的異常變化。

基于CPLS算法,資料矩陣X和Y分解如下:

偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立
偏最小二乘(Partial Least Squares,PLS)原理及模型建立

繼續閱讀