天天看點

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型

  • Abstract 摘要
  • 1.Introduction 介紹
  • 2.BACKGROUND AND RELATED WORK 背景和相關工作
    • A.Notation list 注釋清單
    • B.Disk failure prediction 磁盤故障預測
    • C.Abstraction for disk failure predictive models 磁盤故障預測模型簡介
    • D.Explainability 可解釋性
    • E.Related work 相關工作
      • 1)磁盤故障預測:
      • 2)可解釋性:
  • 3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法
    • A.Replacement tests 替換測試
    • B.MFCS的定義
    • C.解釋故障預測
    • D.解釋預測模型
    • E.複雜度和開銷分析
  • 4.EVALUATION
    • A.設定
    • B.D0上的評估
    • C.開銷
    • D.讨論:智能磁盤故障處理
  • 5.CONCLUSION AND FUTURE WORK 結論與下一步工作

·論文連結: https://ieeexplore.ieee.org/document/8890231

Abstract 摘要

磁盤故障預測的最新研究工作以複雜的模型實作了較高的檢測率和較低的虛警率,但代價是難以解釋。缺乏可解釋性可能會掩蓋模型中的偏差和過拟合問題,進而導緻在實際應用中表現不佳。為了解決這一問題,我們提出了一種新的解釋方法DFPE,該方法設計用于磁盤故障預測,以解釋模型做出的故障預測并推斷模型學習的預測規則。DFPE通過執行一系列替換測試以找出故障原因來解釋故障預測,然後通過彙總故障預測的解釋來解釋模型。 在真實資料集上給出的用例表明,與目前的解釋方法相比,DFPE可以更準确地解釋故障預測和模型。是以,它有助于瞄準和處理隐藏的偏差和過拟合,從新的角度衡量功能的重要性,并實作智能的故障處理。

1.Introduction 介紹

數以萬計的伺服器聚集在資料中心中,以存儲大量資料,并提供Internet、雲計算、資料分析等服務。由于磁盤技術的成熟和高成本效益,大量的不同年齡的磁盤正在資料中心中使用。這就導緻故障的頻繁發生,尤其是磁盤故障。 對于未部署資料備援方案(例如磁盤RAID,複制或擦除代碼)的存儲系統來說,磁盤故障會導緻資料的丢失。而對于具有任何備援方案的系統,磁盤故障會導緻很大的開銷來恢複丢失的資料,包括存儲I/O、網絡I/O和CPU突發(CPU burst)。

為了減少磁盤故障的影響,許多工作将重點放在磁盤故障預測上。磁盤故障預測解決方案會在即将發生磁盤故障時發出警報,是以存儲系統有足夠多的時間主動将資料和服務從高風險的磁盤中遷移出來。是以,它有助于維護資料和服務始終可用,并且減少了由于被動故障處理引起的I/O和CPU突發事件。

通常來說,預測模型在以下的情況下是可信賴的:1)對測試中大多數的現有案例做出正确預測。2)對做出預測的原因給出合了解釋。關于磁盤故障預測的最新工作傾向于隻關注前者而忽略後者。 他們建議在磁盤故障預測中采用複雜的模型,以改進檢測率和虛警率。但是,他們是以可解釋性為代價實作了改進,很難去了解為什麼這些模型能夠預測磁盤不久會發生故障。由于測試無法涵蓋所有​​可能的情況,是以預測模型可能在測試中表現良好,但在測試中并未暴露出隐藏的偏差或過拟合問題,是以導緻在實際應用中表現不佳。

偏差,也稱為機器學習偏差,表示模型會産生系統性的偏見結果。例如,流行的Google News Word2Vec模型具有性别偏見,因為Google News資料集具有固有偏見。過拟合意味着模型會學習訓練資料的噪聲,并且過于精确地和訓練資料對應。偏差和過拟合在預測模型的應用中會導緻較低的預測精度。它們可能是由于對資料收集和處理的無意識監督造成的,很難去檢測和處理。然而,如果對模型做出的預測給出解釋,模型的高可解釋性可以幫助檢測偏差和過拟合。是以,提高磁盤故障預測中複雜模型的可解釋性是十分重要的。

在本文中,我們提出了DFPE,一種磁盤故障預測解釋方法,以提高複雜模型在磁盤故障預測上的可解釋性。 DFPE通過提取相關特征來解釋模型做出的故障預測,并通過彙總故障預測的解釋和度量特征的重要性來推斷模型學習的預測規則。此外,DFPE提供了更多的故障相關資訊,以實作智能故障處理,進而可以針對不同故障情況采取不同的措施,而不是直接丢棄高風險磁盤。

總結起來,我們在本文中做出了以下貢獻:

• 我們提出了一種新的解釋方法,以提高目前複雜模型對磁盤故障預測的可解釋性。據我們所知,它是第一個針對磁盤故障預測的可解釋性問題的。

• 我們在一個實際資料集上提供了一個案例,以表明在磁盤故障預測的複雜模型中可能存在偏差,而我們的新方法有助于檢測和處理隐藏的偏差。

• 我們證明了DFPE可以用于度量特征的重要性,并讨論了DFPE如何實作智能故障處理。

本文的其餘部分将介紹方法的細節。第二節介紹了背景,存在的問題及相關工作。第三節介紹了我們方法的設計,第四節介紹了評估。第五節總結了論文并介紹了我們未來的工作。

2.BACKGROUND AND RELATED WORK 背景和相關工作

A.Notation list 注釋清單

表 I 列出了本文中使用的符号。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

B.Disk failure prediction 磁盤故障預測

磁盤故障預測是為了預測磁盤的未來狀态:正常或故障。但是,它不僅僅是一個分類問題,還具有以下特征:

• 由于磁盤故障的情況比普通情況少得多,是以它是不平衡的分類問題。是以,預測磁盤故障的情況通常比正常預測少得多。

• 由于磁盤狀态會随時間變化,是以這是一個時間序列分析問題。

• 這是一個多執行個體學習問題。對于發生故障的磁盤,其最終狀态是已知的,但是磁盤變為故障時的确切更改點是未知的。

DFPE用于解釋磁盤故障的預測和模型:1)DFPE通過專注于解釋故障預測來解決上述第一個特征; 2)DFPE可以解釋為時間序列建構的模型。 3)DFPE可以找出給定模型的變更點。

C.Abstraction for disk failure predictive models 磁盤故障預測模型簡介

令I為預測模型的輸入。I由許多特征組成:I = I1I2 … In,這些特征從各個方面描述了磁盤的運作名額。大部分有關磁盤故障預測的最新成果是基于SMART屬性來建立預測模型的。SMART(自我監視,分析和報告技術的縮寫)是一種監視系統,用于檢測和報告各種存儲驅動器可靠性的名額。它已很好地部署在硬碟驅動器(HDD)、固态驅動器(SSD)和eMMC驅動器中。例如,HDD的常見SMART屬性包括SMART 5(重新配置設定扇區數)、SMART 7(尋錯率)、SMART 189(高寫入率)等等。此外,一些方法還考慮了系統級名額,例如檔案系統錯誤、讀取速率、寫入速率、I/O隊列大小、I/O等待時間和I/O使用率。由于特征值随時間變化,I可以是目前值,也可以是近一段時間内的值,也可以是從部署時間到現在的值。

令P為磁盤故障預測的預測模型。 P以I作為輸入,并輸出磁盤是否會發生故障:P:I→O。建立預測模型很複雜。為了解決模組化問題,提出了許多算法、方法和工具,例如抽樣、價值定标、學習、投票等。在本文中,我們将重點放在學習模型上。在磁盤故障預測中流行的學習模型包括SVM(支援向量機)、決策樹、內建模型(例如随機森林、GBDT(梯度提升決策樹) )、以及人工神經網絡(例如MLP(多層感覺器),RNN(遞歸神經網絡)和LSTM(長期短期記憶))。

令O為預測模型的輸出。它可以推斷磁盤在不久的将來是否會發生故障。它可以是布爾值(故障或正常),浮點值(多接近故障)或整數值(不同緊急程度)。在本文中,O預設為布爾值,其他類型的O可以輕松轉換為布爾值。

D.Explainability 可解釋性

随着人工智能的快速發展,越來越多複雜的模型被提出來以提高精度。提出的模型通常具有成千上萬的參數。對于人類來說是不可能了解每個參數的确切含義以及模型如何從輸入中推斷出結果的。換句話說,為了提高準确性而犧牲掉了可解釋性。

但是,随着對安全性和可信度的要求越來越高,越來越多的研究工作緻力于改善複雜模型的可解釋性。可解釋性要求模型不僅輸出結果,而且還解釋其為何推斷結果以及所學的規則。 盡管了解複雜模型中所有參數的确切含義是不現實的,但是可解釋性隻要求模型定性地解釋輸入和輸出之間的關系,或者量化輸入的每個特征對輸出的貢獻。這些解釋為模型提供了見解,是以可以決定輸出和模型是否可信。強調可解釋性的優點是:1)幫助提高模型的可信度; 2)當模型給出難以置信的解釋時,有助于檢測模型中的偏差或過拟合; 3)提供了有關結果的更多詳細資訊,以支援後面更明智的決策。

現有兩種流行的方法可以實作較高的可解釋性:1)使用可解釋的模型。例如,通過檢查參數來推斷規則,進而使決策樹模型易于了解。具有高水準學習能力的複雜的可解釋模型已經被開發。 2)采用一種解釋方法來提高複雜模型的可解釋性。 解釋方法對模型進行一系列測試,例如随機排列測試,以推斷輸入和輸出之間的關系并得出學習的規則。它的優點是可以與現有的學習模型很好地協作,這些學習模型通常比可解釋的模型具有更好的學習性能。

最近,越來越多的複雜模型被部署到磁盤故障預測中,它們實作了非常好的學習性能(高檢測率和低虛警率),例如Random Forest 、GBDT、MLP、RNN和LSTM。是以,我們提出了一種新的解釋方法,以提高現有模型對磁盤故障預測的可解釋性,而不會降低預測精度。

E.Related work 相關工作

1)磁盤故障預測:

近年來,磁盤故障預測得到了很好的研究,部署了許多機器學習方法來建構具有高檢測率和低虛警率的高品質預測模型。

一方面,一些工作建立了具有高解釋性的簡單預測模型。例如,Murray等人利用了樸素貝葉斯。皮塔克拉特等人發現,最近鄰分類器在21種分類算法中獲得了最佳的預測品質。Li等人采用決策樹。Ma等人表明,重新配置設定扇區的累積表明磁盤的劣化程度,是以可以根據該名額建立預測模型。對于這些模型,可以通過檢查模型内部的參數來輕松地跟蹤如何進行的預測以及學習了哪些預測規則。簡單的模型可以快速進行預測,是以可以在強調低開銷的場景中很好地部署它們。

另一方面,有些工作以可解釋性為代價獲得了更好的預測準确性。建構的模型很複雜。首先,模型包含了太多參數,是以很難去了解每個參數。例如,Zhu等人探索反向傳播神經網絡(MLP模型)的能力并開發了一種改進的SVM。徐等人部署RNN來測量硬碟的健康水準。其次,內建學習方法将許多基本模型結合在一起以獲得更好的性能。內建模型包含的基本模型越多,可解釋性就越低。例如,Botezatu等人使用了正則化貪婪森林。Mahdisoltani等人發現基于随機森林的分類器可以準确地預測扇區錯誤。Xiao等人利用線上随機森林可以随時間線上更新預測模型。

本文旨在提高目前複雜模型對磁盤故障預測的可解釋性。 利用我們的新方法,目前的複雜模型不僅可以保持其較高的預測精度,而且還具有較高的解釋性。

2)可解釋性:

随着人工智能的發展,越來越複雜的模組化方法被提出,可解釋性的需求也在穩步增長。為了提高目前複雜模型的可解釋性,研究人員提出了許多解釋方法。根據解釋目标,可以将解釋方法分為本地和全局解釋方法。

局部解釋方法試圖解釋模型做出的預測。Robnik-ˇSikonja等人建議通過計算原始預測與省略某個特征的預測之間的差異來衡量該特征對預測的重要性。Baehrens等人建議通過測量局部梯度來解釋預測結果,該局部梯度表示了該如何調整輸入來改變預測結果。 Ribeiro等人提出LIME通過在預測周圍局部學習模型來解釋任何分類器的預測。

全局解釋方法試圖解釋模型。 雜質平均降低(MDI)和準确性平均降低(MDA)是兩種流行的方法,它們通過測量特征的重要性來解釋樹模型。 MDI計算包含特征的節點分割數,并按其分割的樣本數權重,而MDA計算特征值随機排列時模型的平均增加誤差。 Lakkaraju等人提出了BETA,一種模型不可知論的架構,通過優化原始模型的保真度和解釋的可解釋性來産生全局解釋。

以上這些解釋方法适用于任何應用程式,而我們的新方法則适用于磁盤故障預測。由于磁盤故障預測具有序列特征,是以我們的新方法可以比目前的解釋方法産生更多、更好的解釋。

此外,具有高學習能力的可解釋模型正在開發中。這是提供磁盤故障預測高精度高可解釋性模型的方法。

3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法

通過對前人的工作的學習,我們開發了DFPE,這是一種新的解釋方法,它通過執行一系列替換測試來對磁盤故障預測做出解釋。

A.Replacement tests 替換測試

對于磁盤的輸入I,将第i個特征替換為值v,我們得到修改後的輸入C(I,i,v)。令T(Ii)為普通磁盤的第i個特征的典型值。它可以是普通磁盤特征的平均值或中值。是以,C(I,i,T(Ii)) 意味着省略第i個特征。對于不在列集S中的每列i,将第i個特征替換為T(Ii),最後得到修改後的輸入CS(I,S)。 CS(I,S) 表示忽略S之外的所有功能。

對于磁盤故障預測而言,預測模型做出正常預測的情況應該遠多于故障預測。但是,故障預測比正常預測重要得多。是以,替換測試的目的是測試故障預測是不是由給定的特征集引起的。 對于特征集S,替換測試将測試P(I)和P(C(I,S))是否都會預測磁盤發生故障。如果是這樣,則意味着即使省略了S之外的所有特征,該模型也會在磁盤上做出相同的故障預測。是以是集合S中的特征導緻了磁盤的故障預測。

B.MFCS的定義

定義1:對于預測将故障 P(I)=true的磁盤的輸入I,當列集S滿足以下條件時,S被定義為磁盤的最小故障原因集(MFCS):

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

第一個條件表明,即使從輸入I中忽略了所有不在MFCS中的特征,預測模型P仍然預測磁盤發生故障。換句話說,對于磁盤,MFCS中的特征使模型P确信磁盤将在不久的将來發生故障。第二個條件表示最小值。沒有合适的MFCS子集能夠說服P磁盤會發生故障。MFCS中的任何特征對于支援故障預測都是必不可少的。

定義了MFCS來解釋故障預測。MFCS會告知哪些特征使得模型做出故障預測。此外,由于模型已經了解了故障與MFCS中的特征之間的關系,是以可以從MFCS推斷學習規則。

令im(MFCS,Ii)為MFCS(i∈MFCS)中特征Ii的重要性。通過學習文獻[20],DFPE通過計算如何調整特征以改變預測結果來計算im(MFCS,Ii),如算法1所示。由于有關磁盤可靠性的大多數特征都有增加或減少的趨勢, DFPE利用二進制搜尋,通過有限的步長(Stepmax)來計算特征的變化點。然後,DFPE歸一化變化點和特征值之間的距離。要注意的是,Ii可以是單個值也可以是時間序列,但是算法1在兩種情況下都适用。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

由于預測磁盤故障可能是根據不止一條規則,是以可能有不止一個MFCS用于故障預測。令E為磁盤故障預測的解釋。E是一組MFCS,并且E = {MFCS1,MFCS2 … MFCSm}。

C.解釋故障預測

現在将解釋磁盤故障預測轉換為找出磁盤的所有MFCS或E。對于具有n個特征的磁盤,測試所有可能的MFCS的複雜度為O(2^n),這将花費很多時間。是以,DFPE無需測試所有可能的MFCS,而是采用兩步方法來找出盡可能多的MFCS。

第一步,DFPE做一些替換測試以尋找潛在的MFCS,如算法2所示。算法2包含兩個嵌套循環。内循環(第5至15行)試圖通過逐個替換特征,測試特征是否影響預測結果。如果有影響,DFPE将復原替換值并将特征添加到目前的MFCS中。如果沒有,DFPE将保留替換值并繼續疊代。找到一個MFCS之後,DFPE會忽略這個MFCS中的所有特征,并測試外環中是否有更多的MFCS。如果有,DFPE會嘗試再次通過内部循環查找更多的MF CS。如果沒有了,則DFPE傳回所有找到的MFCS。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

算法2隻能找出沒有重疊的MFCS。 例如,它可以找出{1,3}和{2,4}。但是當有重疊時,它不能找出所有的MFCS。例如,當MFCS為{1,3}和{2,3}時,算法2隻能找出{2,3},因為在找到{2,3}之後省略了特征I3。為了找出更多用于故障預測的MFCS,DFPE采取了第二步。

在第二步中,DFPE保持一個用于預測模型的MFCS集,稱為knownMFCS。knownMFCS包含算法2為曆史故障預測發現的所有已知MFCS。通常,DFPE使用訓練資料建構已知的knownMFCS。如算法3所示,DFPE檢查knownMFCS中的每個元素,以找出更多的MFCS用于故障預測。為了減少檢查次數,DFPE首先按大小升序排列knownMFCS中的元素。然後,對于knownMFCS中的每個元素KS,DFPE檢查E中是否存在KS的子集還是KS的超集(請參見第3行)。如果有,則KS不能作為磁盤的MFCS,因為不能滿足MFCS定義中的條件。如果KS是E中元素的子集,則P(CS(I,KS))等于false,是以無法滿足第一個條件。如果KS是E中元素的超集,則不滿足第二個條件。如果通過了第3行的測試,則DFPE會進一步測試是否找到與KS共享特征的MFCS(請參見第4行)。由于算法2已找到所有沒有重疊的MFCS,是以算法3隻能找出與找到的MFCS有重疊的MFCS。最後,如果檢查不能排除KS,則DFPE将執行替換測試,以檢查KS是否确實是磁盤的MFCS。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

DFPE不保證會找到所有MFCS。假設存在一個MFCS并在以上兩個步驟中隐藏。根據第一步,MFCS與另一個MFCS’一起出現。根據第二步,有兩種情況。首先,MFCS從未出現過。在這種情況下,如果不周遊所有可能性就很難通過啟發式方法找到它。其次,MFCS從來沒有單獨出現過。在這種情況下,這可能意味着存在多餘的特征,這些特征隻會引起多餘的解釋。是以,DFPE沒有采取更多的步驟來挖掘隐藏的MFCS。

D.解釋預測模型

為了解釋預測模型,DFPE彙總了所有關于故障預測的曆史解釋,以推斷出預測模型已掌握的預測規則。通常,DFPE會使用訓練資料或驗證資料來解釋模型。 DFPE将MFCS看作預測規則。對于每個MFCS,DFPE将分别計算由其導緻的正确和不正确的故障預測數量(分别标記為TPMFCS和FPMF CS)。令FNMFCS為沒有MFCS的故障磁盤數。令TNMFCS為沒有MFCS的正常磁盤數。然後,DFPE進一步根據方程式(1)和(2)分别計算由MFCS得出正确故障預測的百分比以及其虛警率(标記為FDRMFCS和F ARMFCS)。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

對于MFCS,FDRMFCS描述其流行程度和重要性,而FARMFCS描述其可信度。DFPE根據所有MFCS的FDRMFCS對其進行排序,顯示出最常見的故障原因。同時,DFPE根據所有MFCS的FARMFCS對它們進行排序,以提供最值得懷疑的規則,進而警告管理者謹慎處理相關的故障預測。

最後,DFPE度量了預測模型中每個特征的重要性(标記為imp(Ii,P))。對于每個功能Ii,DFPE都會計算成功預測了多少故障磁盤,其故障預測的解釋中包含該特征。計數器标記為TPIi。然後DFPE通過根據等式(3)歸一化TPIi來計算imp(Ii,P)。imp(Ii,P)值表示模型中各個特征的重要性。imp(Ii,P)的值越大,該特征越重要。這些值在要素工程中很有用,例如要素選擇,可以選擇具有最高imp(Ii,P)值的要素來建構更精簡的模型。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

E.複雜度和開銷分析

DFPE最耗時的操作就是計算P(I)來進行預測。是以,時間複雜度通過P(I)的計算時間來衡量。目前無解釋的磁盤故障預測方法隻需要計算一次P(I),是以它們的時間複雜度為O(1)。 DFPE則需要多次計算P(I),以便可以對故障預測做出解釋并提供有關即将發生的故障的更多詳細資訊。我們認為這是可以接受的,因為它具有很高的解釋性。

算法2嘗試找出沒有重疊的所有MFCS。 它的複雜度取決于可以找到多少個M FCS。令n為資料集中的要素數量。最好的情況是隻有一個MFCS,DFPE需要對每個特征進行替換測試,是以複雜度的嚴格下限為Ω(n)。在最壞的情況下,每個特征都是一個MFCS,而DFPE在進行所有特征的替換測試的一次循環中隻能找出一個MFCS。是以,複雜度的嚴格上限為O(n^2)。在測試中,我們發現磁盤的MFCS的平均數量通常遠少于特征的數量,是以實際成本将比最壞情況下的成本低得多。

算法3嘗試通過檢查knownMFCS來發現更多的MFCS。 複雜度為O(|knownMFCSs|)。在最壞的情況下,| knownMFCSs | = 2^n。但是,最壞的情況很少見,因為| knownM F CSs |的數l量通常小于2^n。此外,DFPE通過檢查knownMFCS與找到的MFCS的關系過濾了很大一部分。是以,實際成本将比最壞情況下的成本低得多。

算法1執行二分查找以有限的步長(Stepmax)度量特征的重要性,是以其時間複雜度為O(Stepmax)。因為Stepmaxis是一個指定的常數參數,是以O(Stepmax)= O(1)。故障預測的解釋不能超過2n個MFCS,而MFCS不能超過n個特征。是以,用于解釋的度量特征重要性的上限複雜度為o(n*2n)。但是我們在評估中發現,用于解釋的MFCS的平均數量通常遠少于特征數量,是以實際成本将比最壞情況下的成本低得多。

為了解釋故障預測,DFPE根據算法2和3找出MFCS,并度量了找到的M F CS的特征重要性。 是以,複雜度為O(n2)+O(2n)+o(n2n)=o(n2n)。最壞的情況将花費大量時間。但根據以上描述推斷,盡管最壞情況确實很糟糕,實際成本通常會比最壞情況下的成本低得多。在第四節中,我們将證明成本是可以接受的。

最後,DFPE通過收集故障預測的解釋來推斷預測規則以解釋預測模型。 推理方法很簡單,因為它隻做一些計數工作,并使用計數器計算FDRMFCS、FARMFCS和imp(Ii,P)。是以,解釋模型的主要成本在于解釋故障預測。

為了減少開銷,可以通過禁用某些特征來限定DFPE。例如,可以省略算法3,這将減少找到的MFCS的數量。解釋模型也可以是可選的。DFPE可以像其他局部解釋方法一樣隻解釋預測。另外,可以利用采樣技術來進一步減少開銷。例如在解釋模型時,DFPE可以通過限制每個磁盤的時間序列長度來對資料集進行采樣。

4.EVALUATION

A.設定

我們在具有兩個Intel Xeon E52620 CPU、128 GB記憶體和Linux核心4.4.0的Ubuntu x86 64 16.04 LTS的伺服器上運作評估。我們基于scikit-learn 0.19.1和PyTorch 0.4.0實作了DFPE和相關方法。評估涉及的資料集見表II。表II中的所有資料集均由SMART屬性的記錄組成。資料集D0已用于[7] – [9],[17],D1,D3,D4和D8用于[10],以及D1和D2用于[11]。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

對于每個磁盤序列,按照7:3的比例将資料集分為訓練集和測試集。訓練集用于訓練、調整和解釋預測模型。通過訓練集,我們建構了模型并通過疊代小範圍的訓練參數對其進行了調整。不能保證所建構的模型是最佳的。通過進一步的調整或新的模組化方法,可能會獲得更好的模型,但在磁盤故障預測上如何建立高品質的模型不是本文的主題。測試集用于評估模型的性能并提供故障預測的解釋。

在評估中,我們首先關注資料集D0,比較DFPE所做的解釋和其他解釋方法的詳細資訊,然後将評估擴充到其他資料集來展示DFPE的用法和開銷。 Stepmax設定為10,這樣im(MFCS,Ii)的精度就等于2-10≈0.001。

B.D0上的評估

表III中列出了為建構D0的預測模型而選擇的SMART屬性。本文采用的預測模型是随機森林模型。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

1)解釋預測模型: MDI和MDA是兩種流行的通過度量特征重要性來解釋随機森林模型的方法。圖1(a)和1(b)分别表示了MDI和MDA的解釋。與之相比,DFPE不僅度量了特征重要性(圖1©),而且還推斷出預測規則,計算了規則相關的名額(如表IV和V所示)。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作
【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

圖1展示了三種度量特征重要性的方法之間的比較。一方面,觀察到一些差異。結果表明,這三種方法在F11,F9,F7和F3的重要性上有很大差異。例如,MDI和MDA認為F9不重要,而DFPE認為F9重要。另一方面,也有更多的相似之處。 例如F5是最重要的特征,F8和F6有點重要,而F10則最不重要。DFPE設計用于磁盤故障預測。由于磁盤故障預測是一個不平衡的分類問題,是以DFPE隻去分析故障的預測。這是DFPE與其他兩種方法之間的主要差別。是以,DFPE的結果應該比其他兩種方法更準确。此外,由于差異性,DFPE測得的重要性值分布更加均勻,進而可以更好地比較特征。

特征選擇可以在度量特征重要性之後進行。在分别基于這三種方法進行特征選擇之後,我們為10個資料集建立了模型。由于相似性,這三種方法選擇了許多共同的特征。結果,未觀察到由DFPE作出的明顯改進。是以,DFPE隻是提供了另一個衡量模型中特征重要性的角度,并為特征選擇提供了多一種方法。

與MDI和MDA相比,DFPE可以通過推斷預測規則來解釋有關預測模型的更多資訊。DFPE根據其檢測率對規則進行排序,直覺地顯示最流行和最重要的規則。 表IV顯示了Random Forest模型學習的十大重要規則。可以看出,大多數故障隻能通過一些規則來檢測。此外,DFPE根據虛警率對規則進行排序,直覺地顯示最值得懷疑的規則。 表V列出了随機森林模型已學習到的十大可疑規則。可以看出,大多數錯誤警報僅由少數規則引起。這也表明規則的虛警率确實很小,意味着随機森林模型已經很好的拟合了訓練資料。通常來說,可以去排除掉虛警率高或檢測率低的規則,而不需要進行重建來提高模型的品質。

2)解釋故障預測: 我們在測試集中随機選擇了一個故障磁盤來展示DFPE的解釋。為了進行比較,我們還使用LIME來解釋相同的故障預測。圖2中LIME的解釋表明,F5,F2,F12,F11,F7,F9和F1試圖說服模型磁盤将在不同程度上發生故障,而F4和F8試圖說服模型磁盤在正常工作。它還表明F5是導緻故障預測的主導因素。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

與LIME相比,DFPE可以針對故障預測解釋的更多,并且解釋的更為準确。 表VI顯示,DFPE對于該故障預測發現了三個MFCS。每個MFCS都可以分别說服模型作出故障預測。根據表IV,這三個MFCS屬于前4個最重要的MFCS,意味着這三個規則已對許多故障磁盤預測正确。其中{6}的FARMFCS最小,等于0,這意味着故障預測非常可信。DFPE還度量了特征對故障預測的重要性,如圖3所示。它表明F6,F5,F9,F3和F11對于故障預測很重要,這與LIME的解釋大不相同。原因是DFPE與LIME不同,它通過忽略MFCS之外的其他特征來衡量MFCS中特征的重要性。對于這個例子,模型可以僅根據F5而做出故障預測,但由于F6,F3,F9和F11的存在,省略F5并不會更改作出故障預測的決定。是以,如果不排除F5的影響,就無法暴露F6,F3,F9和F11的重要性。是以在磁盤故障預測的應用中,DFPE的解釋比LIME的解釋更為準确。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作
【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

3)檢測和處理偏差: 從MDA,MDI和LIME的解釋(如圖1(a)、1(b)和2所示)可以看出,F5(磁盤的上電時間)是磁盤故障預測中最重要的功能。這是合理的,因為磁盤運作的時間越長,發生故障的可能性就越大。但是,從如圖1©和3以及表IV至VI所示的DFPE的說明中可以看出,模型已了解到F5可以單獨确定故障預測。這意味着,隻要磁盤的通電時間超過某個門檻值,該模型就可以确定磁盤肯定會發生故障。這種學到的規則是不合理的,因為在使用磁盤一定時間後會引起很多錯誤警報。簡而言之,模型中存在偏差,DFPE有助于揭露它。

如表V所示,由于規則{5}的虛警率确實很低,是以偏差可能是由資料集而不是模組化方法引起的。為了确定偏差不是由模組化方法引起的,我們從其他學習方法中建立了幾種預測模型:GBDT,XGBoost,SVM,MLP和LSTM。表VII顯示所有模型都學會了規則{5},而且是最重要的規則,具有最高的檢測率和非常低的虛警率。這意味着無論采用哪種模組化方法,都存在偏差。針對資料集中的偏差,圖4表示了普通磁盤和故障磁盤的F5值分布。原始F5值的範圍是0到255,并且在預處理過程中會線性縮放到[-1,1]範圍。以下特征是保留的:值越大,上電時間越短。可以看出,普通磁盤的F5值範圍是-0.08-1,而故障磁盤的F5值範圍是-1-1。缺少F5值範圍在[-1,-0.08]的普通磁盤樣本會導緻模型十分容易學習到磁盤上電時間超過一定門檻值将出現故障的規則。這意味着資料集具有時間偏差。 時間偏差可能是由于資料收集方法引起的,它是在某個時間導出所有磁盤的一周樣本,然後在此時間之後隻去更新故障磁盤中的樣本。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作
【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

有兩種簡單的方法可以處理資料偏差:1)僅在解釋中存在不是{5}的MFCS時,讓模型預測磁盤發生故障。 2)重建沒有功能F5的模型。表VIII顯示了基于随機森林模型的兩種方法的評估結果。結果表明,前一種方法具有更好的FAR,而後者具有更好的FDR。這兩種方法的性能都比原始模型差,因為它們沒有利用資料偏差。但是,這兩種方法在現實世界中都應比原始模型具有更好的性能,因為它們沒有不健全的規則。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

4)總結: 對D0的評估表明,與目前的方法相比,DFPE對模型的解釋更多,并且對模型進行的故障預測的解釋更多,并且DFPE的解釋更加準确。是以,DFPE有助于直覺地檢測和處理偏差。

C.開銷

我們将評估擴充到十個資料集,以展示DFPE的間接費用。對于每個資料集,用于評估的随機森林模型都基于所選的12個最相關的要素模組化。表IX中列出的SMART屬性是為表III中所列的一個或多個資料集選擇的。由于某些SMART屬性暗示了磁盤的使用期限,是以模型可能具有上述的使用期限偏差,是以部署DFPE來檢測和處理該偏差将很有幫助。間接費用通過相關的時間成本來衡量。呈現的時間成本可以通過将它們除以一個模型做出預測的平均時間成本進行歸一化,然後将它們乘以10-6秒,來排除模型複雜度的影響。因為在評估中模型進行預測的時間成本大小為10-6秒。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

解釋模型的開銷是通過用訓練集解釋模型的時間成本來衡量的。MDI度量在模組化的期間度量重要性,不需要更多成本。是以我們僅比較了MDA和DFPE的時間成本,如圖5所示。與MDA相比,DFPE在D2上需要89倍的時間,其他資料集需要1.2倍至12倍的時間。DFPE的開銷要比MDA的開銷大得多,因為DFPE通過大量替換測試提取有關該模型的更多資訊,來詳細解釋每個故障預測。此外,在給定相同數量的特征的情況下,MDA的時間成本由訓練集的大小确定,而DFPE的時間成本主要由訓練集的故障預測數确定。資料集D2相對較小,但有很多故障預測,是以DFPE比MDA需要更多的時間。解釋模型是資料分析的一項離線任務,是以考慮到高可解釋性的好處,DFPE的時間成本是可以接受的。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

解釋預測的開銷是通過測試集中磁盤預測的解釋平均時間成本來衡量的。讓LIME和DFPE僅解釋故障的預測。圖6分别顯示了LIME和DFPE的時間成本。結果表明,與LIME相比,對于這十個資料集DFPE需要1.1倍至8.0倍的時間。DFPE的開銷要比LIME的開銷大,因為DFPE試圖通過尋找更多的故障原因并分别度量特征重要性來進行更多解釋。線上進行預測後,解釋預測也要線上進行,越快越好。但當模型做出故障的預測時不需要很在意,因為處理故障的成本要比做出解釋高得多。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

我們将進一步研究DFPE的成本。圖7顯示,對于十個資料集,每個解釋的MFCS的平均個數範圍在1.3到8.2,少于12個(特征的數量),是以根據算法2查找MFCS和根據算法1進行特征重要性度量的實際成本遠低于最壞的情況下的理論成本。圖8展示了| knownMFCSs |。十個資料集的值範圍從11到192。它們遠遠小于212(knownMFCS的理論最大個數),是以根據算法3檢查knownMFCS的實際成本要比最差情況下的理論成本低得多。圖8還顯示,每個解釋檢查knownMFCS的平均值約為knownMFCS大小的8%〜46%。這意味着算法3中的過濾器幫助算法3減少了54%〜92%的開銷。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作
【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

為了展示DFPE開銷與所選特征數量之間的關系,我們針對具有不同特征數量的資料集D4建構并解釋了模型。因為D4的模型解釋的時間少,為了節省時間隻選擇了D4。如圖9所示,随着標明特征數量的增加,開銷的增長往往會随着相當大的振蕩而緩慢增長。 緩慢增長的原因是,隻有一小部分特征與磁盤故障有關,并且大多數故障可以通過甚至更少的特征預測出來。由于增長緩慢,DFPE在應用程式中将具有很大的可伸縮性。振蕩出現的原因是當所涉及的特征太少或不相關時,模型可能會在訓練資料中學習到噪聲,這會導緻不确定地增加進行解釋的時間成本。

【翻譯】DFPE: Explaining Predictive Models for Disk Failure Prediction DFPE: 解釋磁盤故障預測模型Abstract 摘要1.Introduction 介紹2.BACKGROUND AND RELATED WORK 背景和相關工作3.THE PROPOSED EXPLANATION METHOD 提出的解釋方法4.EVALUATION5.CONCLUSION AND FUTURE WORK 結論與下一步工作

綜上所述,與目前的解釋方法相比,DFPE需要更多的開銷來解釋有關模型和故障預測的更多資訊。由于具有較高的可解釋性和較高的故障處理成本,是以我們認為這些開銷是可以接受的。

D.讨論:智能磁盤故障處理

目前主動的磁盤故障處理方法是遷移資料并替換預計發生故障的磁盤。如果能維修磁盤或者将其部署在其他應用程式場景中,那麼丢棄磁盤會導緻存儲資源的巨大浪費。例如當預測一個磁盤會因為溫度(SMART 194)而發生故障時,可以通過清潔灰塵來維修磁盤。當由于磁盤的重新配置設定扇區數(SMART 5)而預測磁盤發生故障時,磁盤中的資料仍可以正常服務,但是會有相對較高的錯誤率。在這種情況下,可以将該磁盤部署在對尾部延遲不敏感的應用場景中,而且存儲系統可以利用磁盤清理來發現錯誤并存儲備援資料以恢複丢失的資料。該處理方式也稱為降低使用率。為了減少存儲資源的浪費,采用智能磁盤故障處理方法很重要,這意味着根據故障原因智能地處理預測出的磁盤故障。

DFPE通過以MFCS形式提供故障原因來實作智能磁盤故障處理。在這裡,我們介紹一個簡單的智能磁盤故障解決方案,稱為SIDF。對于每個特征,SIDF都提供相應的操作來處理由該特征引起的故障預測。當一個MFCS在故障預測的解釋中時,必須采取一個與這個MFCS中的特征相對應的處理措施來處理故障。SIDF可以選擇可以最佳使用磁盤而不是丢棄磁盤的操作。當一個解釋包含多個MFCS時,必須采取相同數量的相應處理動作。當一個處理操作可以處理多個MFCS時,SIDF将采取這個高優先級的動作。但是,當一項操作是丢棄磁盤時,則無需執行其他的操作。

以資料集D0的磁盤系列為例。SIDF可以提供三種處理措施:降低溫度,降低使用率和丢棄磁盤。降低溫度是特征F8的處理措施。降低磁盤的使用率是為了處理由F1,F3,F6,F9,F10,F11或F12引起的故障,因為這些特征的異常可能隻會導緻較高的資料錯誤率。丢棄磁盤用于F2,F4和F7,因為這些特征的異常可能是由于某些機械零件的損壞而引起的。如果預測磁盤出現故障并給出解釋{{8,9,11}},則SIDF應該采取下面其中一種處理措施:降低溫度或降低使用率。當解釋為{{4,8,12},{3,5}}時,SIDF将采取降低使用率的操作,因為該操作同時針對F12和F3。當解釋為{{4},{1,3,6}}時,SIDF應該同時執行兩個操作:降低使用率并丢棄磁盤。但是應該将磁盤丢棄,是以SIDF無需采取降低使用率的措施。

5.CONCLUSION AND FUTURE WORK 結論與下一步工作

在本文中,我們提出了一種解釋方法DFPE,以提高複雜模型在磁盤故障預測上的可解釋性。對實際資料集的評估表明,DFPE可以解釋模型做出的故障預測,并推斷出模型學習的預測規則。與目前的解釋方法相比,DFPE可以更準确地解釋有關故障預測和模型的資訊。是以,DFPE有助于檢測和處理模型中的偏差和過拟合,為度量特征的重要性提供了另一個視角,并實作了智能磁盤故障處理。

我們未來的工作是通過減少開銷來改進DFPE,探索更合适DFPE的應用程式,并測試智能磁盤故障處理的實用性。

繼續閱讀