天天看點

基于人工智能的高鐵動車組智能運維資料分析系統的建構

作者:暢藩軟體

近年來,大陸高速鐵路(簡稱:高鐵)事業飛速發展,高鐵動車組列車保有量快速增長,服役車型種類日益增多,高鐵産業正由制造為主的階段轉向全壽命周期營運維護(簡稱:運維)為主的階段。是以,提高動車組運作的安全性和可靠性,降低運維成本,具有重大意義。

目前,動車組故障預測與健康管理(PHM ,Prognostic and Health Management)系統[1]已在全國鐵路投入使用[2],基于對24種動車組關鍵部件傳感器資料的分析,建構了預警預測、視情維修等故障診斷和預測應用。2021年,動車組PHM系統(由中國鐵路上海局集團公司開發的部分)生成故障診斷預警資料近3萬條,準确率約為80%,預報了動車組聯軸節脫開、軸箱軸承故障、蓄電池燒損等典型故障,有效保障了動車組運作安全;針對動車組的散熱裝置進行健康度預測,動車組濾棉更換次數、散熱裝置清潔沖洗次數顯著下降,降低了維修成本。

現階段的動車組PHM系統運維算法模型尚存在如下問題:(1)模型設計依賴于專家經驗,具有主觀性[3-4];(2)模型主要基于動車組系統運作機理建構,對較複雜的部件故障難以進行有效預測;(3)利用傳統故障診斷方法難以建構動車組部件“健康”與“非健康”的狀态分界面,不利于健康管理的深化;(4)利用監督學習建構算法需要高品質的資料标注,但動車組關鍵部件的故障标注資料尚在積累階段,健康度标注則還在研究中。

為深化發展高鐵動車組智能運維算法,亟需在基于人工智能(AI ,Artificial Intelligence)的高鐵動車組智能運維算法研究平台中建構資料分析系統,将AI算法引入特征工程和資料标注環節,利用AI算法打通高鐵動車組智能運維算法研究的全過程。

1. 系統概述

1.1 平台概述

高鐵動車組智能運維算法研究平台包括資料分析系統和模組化分析系統,如圖1所示。動車組PHM系統将動車組車載資訊無線傳輸系統(WTDS ,Wireless Transmission Device System)資料存入離線資料倉庫,作為平台的資料支撐,資料接入平台後,經過資料處理、特征工程、資料标注、模型訓練和模型驗證等步驟,反複疊代、優化形成穩定可靠的模型,最終部署至動車組PHM系統。

基于人工智能的高鐵動車組智能運維資料分析系統的建構

圖 1 高鐵動車組智能運維算法研究平台總體架構

基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 全尺寸圖檔 幻燈片

資料分析系統負責進行資料處理、特征工程和資料标注,包括資料管理、資料處理、特征管理和資料标注功能子產品;模組化分析系統負責進行模型訓練和模型驗證[5-6],包括算法管理、任務管理、模型管理和成果管理功能子產品。資料分析系統作為模組化分析系統的前置環節,可為模組化分析系統作好特征工程與資料标注準備。

1.2 資料處理流程

動車組部件的資料海量而繁雜,在現階段資料标注較為匮乏的情況下,難以進行高效的算法探索與模型分析,針對此問題,資料分析系統設計了具體的處理流程,如圖2所示。系統的特征工程部分細分為降維聚類和結果分析2個流程。降維聚類後的結果需經專業人員分析确認後才能作為特征工程環節的輸出。資料特征數量較多時,高次元資料樣本在空間的分布呈現稀疏性,難以進行進一步分析,在資料進行中被稱為“維數災難”[7],降維是解決維數災難的重要方法,降維的目的是在壓縮資料的同時讓資訊損失最小化。在降維的基礎上,聚類算法可顯著降低資料分析的複雜性,提高聚類結果的可解釋性。經“降維—聚類”後的資料可更加直覺地反映資料間的潛在關系,有助于後續的資料标注和模組化分析。

基于人工智能的高鐵動車組智能運維資料分析系統的建構

圖 2 資料分析系統的處理流程

基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 全尺寸圖檔 幻燈片

2. 關鍵算法

2.1 降維算法

2.1.1 主成分分析

主成分分析(PCA ,Principal Component Analysis)是一種經典的線性降維方法[8]。PCA的主要思想是将高維資料通過線性變換投影到低維空間中,并期望在所投影次元上資料的資訊量最大(方差最大)。

2.1.2 t-分布随機鄰域嵌入

t-分布随機鄰域嵌入(t-SNE ,t-distributed Stochastic Neighbor Embedding)是一種非線性降維算法[9]。該算法的基本思想是保持樣本點在高維空間和低維空間中的機率分布盡量相似,以達到降維的目的。

2.1.3 均勻流形逼近和投影

均勻流形逼近和投影(UMAP ,Uniform Manifold Approximation and Projection)是一種基于黎曼幾何和代數拓撲理論架構建構的非線性流形學習算法[10]。UMAP依據高維空間映射到低維空間相似度的定性結論,将高維資料的拓撲結構進行低維映射以達到降維結果,主要包含構造1個特殊的權重K鄰域圖和計算該圖低維表示2個階段。

2.2 聚類算法

2.2.1 K-means

K-means算法是一種劃分聚類算法。給定一個資料點集合和需要的聚類數目K,該算法根據距離函數反複把資料分入K個聚類中。

2.2.2 Louvain

Louvain算法[11]是一種基于圖資料的社群發現算法,優化目标為最大化整個資料的子產品度,子產品度的計算公式為

Q=12m∑ij[Ai,j−kikj2m]δ(Ci,Cj)Q=12m∑ij[Ai,j−kikj2m]δ(Ci,Cj)

其中,mm為圖中邊的總數量;ki、kjki、kj分别表示所有指向節點ii、j的連邊權重之和;Ai,jAi,j表示節點i、j之間的連邊權重,CiCi表示節點i所屬的社群,當Ci=CjCi=Cj時,δ(Ci,Cj)=1δ(Ci,Cj)=1,否則δ(Ci,Cj)=0δ(Ci,Cj)=0。通過QQ值可确定社群的分類度,其取值範圍為[0,1][0,1],Q值越大,分類度越好。

2.2.3 變分自編碼器

變分自編碼器(VAE ,Variational Auto-Encoder)是自編碼器(AE,Auto Encoder)在生成模型上的變體。基于深度學習的聚類模型選用不同的神經網絡提升聚類效果,AE、VAE、生成式對抗網絡(GAN ,Generative Adversarial Networks)用于聚類的原理類似。

VAE要求AE的中間特征服從給定的高斯分布,通過變分推斷法推斷出樣本機率的最大下界,最大化下界的過程會使樣本的中間特征逼近給定的先驗分布。

3. 系統應用與分析

故障的發生具有突發性和隐蔽性,故障診斷和預測有較大難度。本文采用“PCA+Louvain+UMAP”的降維聚類算法,以高鐵動車組客室空調的資料分析為例,說明高鐵動車組智能運維資料分析系統的應用。高鐵動車組客室空調故障是動車組夏季常見的故障之一,動車組在運作過程中車體呈全密閉式,當空調制冷系統發生故障時,車内室溫不斷升高,将影響車内乘客的乘車環境,甚至可能導緻動車組無法繼續運作,嚴重影響動車組運作秩序[3]。

3.1 資料處理

本文選取動車組客室空調相關部件傳感器資料用于分析其健康狀況的特征,資料來源為20列CRH380B型和20列CRH380BL型動車組在2020年6月~8月運作期間的客室空調相關WTDS資料,共4725120條記錄,每條記錄的10維特征選取如表1所示。

表 1 客室空調特征清單

序号 特征 序号 特征
1 客室溫度 6 壓縮機1高壓值
2 客室空調送風溫度 7 壓縮機1低壓值
3 室外溫度 8 壓縮機2高壓值
4 車速 9 壓縮機2低壓值
5 客室空調模式 10 客室空調通風狀态
基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 導出CSV | 顯示表格

本文對選取的10維特征進行缺失值處理、去量綱等資料預處理,并結合業務知識和經驗[12]對其進行特征擴充,新的特征與客室空調故障有更好的相關性,有助于進行資料分析。最終将特征從10維擴充至16維,擴充後的特征如表2所示。

表 2 擴充後的客室空調特征清單

序号 特征 序号 特征
1 客室溫度 10 客室空調通風狀态
2 客室空調送風溫度 11 客室溫度移動平均值MA5
3 室外溫度 12 客室溫度相鄰資料內插補點
4 車速 13 室外溫度移動平均MA5
5 客室空調模式 14 車速移動平均值MA5
6-9 壓縮機高低壓 15-16 壓縮機高低壓差
基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 導出CSV | 顯示表格

3.2 降維聚類

(1)降維:對擴充後的16維特征資料,利用PCA方法進行線性降維,降維結果如圖3所示,橫坐标代表主成分的序号,縱坐标代表主成分對應的标準差。由圖3可知,大部分資訊在前9個主成分中捕獲,是以,選擇前9個主成分進行後續分析。

基于人工智能的高鐵動車組智能運維資料分析系統的建構

圖 3 PCA降維的成分分析

基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 全尺寸圖檔 幻燈片

(2)聚類:選擇降維後資料的前9個主成分作為輸入,利用Louvain算法進行基于圖的聚類,其中resolution參數為0.5。

(3)可視化:對于聚類後的資料進行UMAP降維,在2維空間上進行可視化展示,如圖4所示,以供專業人員進行結果分析。

基于人工智能的高鐵動車組智能運維資料分析系統的建構

圖 4 動車組客室空調健康狀況降維聚類結果

基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 全尺寸圖檔 幻燈片

3.3 結果分析

對16維特征資料進行“PCA+Louvain+UMAP”降維聚類分析的結果如圖4所示,資料被聚類為12個類别,不同的顔色代表不同的類别。專業人員通過對結果的分析發現,可将圖中的12個類别劃分為4類區域A、B、C和D,各類資料的主要特征如表3所示。

表 3 各類資料對應的主導特征清單

類别 主導特征
A

室溫連續5 min ≥ 28.5℃或

30 min内出現2次

及以上連續5 min内相鄰室溫資料內插補點 ≥ 2℃

B

30 min内出現1次連續5 min内前後室溫資料內插補點

≥ 2℃或

30 min内出現2次及以上連續5 min

相鄰室溫資料內插補點 ≥ 1.5℃

C 30 min内出現1次連續5 min内相鄰室溫資料內插補點 ≥ 1.5℃
D 其他
基于人工智能的高鐵動車組智能運維資料分析系統的建構

下載下傳: 導出CSV | 顯示表格

A類資料為一級故障預警;B類資料為二級故障預警;C類資料為三級故障預警;D類資料為客室空調健康狀态下的資料,可被分類為正常[12]。

3.4 資料标注

根據圖4的聚類效果和結果分析,發現動車組客室空調健康狀況是可劃分的,并且劃分後的4類區域可反映不同程度的客室空調健康狀況,說明16維特征的選取是合理的,可作為特征工程環節的輸出。在模組化分析階段可将這16維特征作為特征池,形成客室空調健康度判定算法。同時,可将A、B、C、D這4種分類的聚類結果轉換為客室空調健康度的資料标簽。标注後的資料作為模型分析系統的輸入,利用監督學習的方法,形成客室空調故障診斷和預測方法。

4. 結束語

本文概述了高鐵動車組智能運維算法研究平台的總體架構,着重闡述了高鐵動車組智能運維資料分析系統的建構,包括關鍵算法和資料處理流程。并以高鐵動車組客室空調故障的資料分析為例進行了應用研究與分析,證明了該系統的可用性。

下一步應進行的工作包括:(1)利用“降維—聚類”的算法架構完成塞拉門、軸承類等部件的特征工程和資料标注;(2)利用特征工程和資料标注的結果,建立有監督的客室空調健康評估模型,實作客室空調故障診斷和預測。

繼續閱讀