天天看點

EPB功能安全筆記(10):硬體随機失效分析基礎

作者:焉知汽車

本文要點:在上文“EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦”中系統地介紹了一種全新的适用于E/E産品的系統性失效(systematic failure)的方法——FMEA-MSR FMEA-MSR(FMEA for Monitoring and System Response)。可以說FMEA-MSR方法的誕生來源于ISO 26262的需求驅動,針對E/E系統的特點優化了傳統FMEA的方法論。

EPB功能安全筆記(10):硬體随機失效分析基礎

DFMEA與FMEA_MSR的關系

回到功能安全本身,除了系統性失效外,ISO 26262還關注随機硬體失效。在随機硬體失效分析面前,FMEA的局限性就暴露無遺。首先,FMEA隻是用來做定性分析而不是定量分析,而對硬體開發的目标是把随機硬體失效限制在能接受的範圍,僅有定性分析是不夠的,ISO 26262第5部分給出了可量化的衡量标準;其次,FMEA隻用來進行單點故障分析,而不能進行多點故障分析,即在分析某個失效模式時,假設的前提是系統中所有其他功能都是正常工作的。但是随機硬體失效的類型除了單點失效外,多點失效也是ISO 26262需要考慮的失效類型。

根據筆者的經驗,ISO26262第5部分對硬體開發的指導可以說是整個标準中最為晦澀難懂的章節,其在于随機硬體失效相關的概念多且繞,且随機硬體失效評估方法背後的邏輯和難以理清。也正是由于硬體随機失效的複雜性和功能安全要求的抽象性交錯在一起,使得寥寥數語無法講清楚其中要點。

1.随機硬體失效相關概念辨析

2.FTA與定性分析

3.FTA與FMEDA之間的聯系

4.FTA與定量分析

本文将對第一部分進行展開。

1.故障,錯誤,失效

“故障”、“錯誤”、“失效”在三個詞在日常使用中往往不會去細究個中差别而造成一定程度上的混用,但也正因為這三個詞的字面意思接近,即使混用也不影響表達。但是,在研究随機硬體失效時非常有必要理清”熟悉ISO 26262中定義的三個概念之間的聯系,這是了解随機硬體失效相關的衆多概念的基礎。

ISO 26262中對三者的定義如下:

  • 故障(fault): 可引起要素或相關項失效的異常情況(abnormal condition that can cause an element or an item to fail)
  • 錯誤(error): 計算的、觀測的、測量的值或條件與真實的、規定的、理論上正确的值或條件之間的差異(discrepancy between a computed, observed or measured value or condition, and the true, specified or theoretically correct value or condition)
  • 失效(failure):要素按要求執行功能的能力的終止(termination of an intended behaviour of an element or an item due to a fault manifestation)

如果借助ISO 26262第10部分的說明圖,我們很容易得出以下結論:

  • 同一個層級(系統層或元件層)中,故障(fault)是失效(failure)的因,失效是故障的果;錯誤(error)是故障的表現形式。
  • 不同層級間,元件層的失效是系統層的故障。
EPB功能安全筆記(10):硬體随機失效分析基礎

故障導緻失效的示例,截圖來自GB/T 34590, 第10部分

圖中将故障分為三類:

  • 系統性軟體故障
  • 系統性硬體故障
  • 随機硬體故障

對于前兩類統稱為系統性故障,由它們導緻的失效則稱為“系統性失效”。“系統性失效”與“随機”這兩個概念是相斥的。因為系統性失效是以确定的方式産生的失效,造成這類失效的系統性故障是設計或生産流程、操作規程、文檔或其他相關因素導緻的,一旦故障存在,則系統性失效100%會發生。比如軟體開發工程師人為誤寫的一個bug,每次程式運作bug對應的代碼100%會輸出錯誤的結果。

而随機硬體故障則是在硬體要素的生命周期中,非預期發生并服從機率分布的客觀規律,這就好比我們都知道人終有一死,但是沒有人能預料到哪一天會死,對于電子元器件也是如此。

2.随機故障的類型

順着上節末的比喻,我們可以進一步思考以下問題:

1.對于一家正在營運的公司來說,世界上每個人的死都會導緻公司運作陷入崩潰嗎?

答案是否定的。

2.如果這家公司的總裁已經将所有經營公司的資訊和資源都給了他的兒子,那麼總裁的突然死亡會讓這家公司陷入崩潰嗎?

答案也是否定的,但是如果總裁和兒子突然同時不幸去世就有可能。

回到汽車的ECU上,也存在同樣的情況,隻不過我們的關注點不是公司的營運情況,而是整車是否發生危害,換句話說,是否違背整車的安全目标。一塊ECU由數以萬計的元器件組成,雖然每個都有發生随機失效的可能,但并不是所有元器件的失效都必然導緻都必然導緻危害的發生;有些元器件的失效有導緻危害發生的可能,但是需要同時發生另一個元器件失效。

基于此,我們可以将随機硬體故障的類型進行進一步的細分。接下來對這些故障進行說明。

EPB功能安全筆記(10):硬體随機失效分析基礎

随機硬體故障的類型,截圖來自GB/T 34590, 第5部分

2.1.單點故障(Single-point fault)

單點故障具有以下兩個特點:

1.可直接導緻違背安全目标;

2.是硬體要素的故障,對于該硬體要素,沒有任何安全機制預防其某些故障違背安全目标。

比如一個未被監控的電阻,該電阻至少有一種失效模式(例如:開路)有違背安全目标的潛在可能。

單點故障與标簽“沒有任何安全機制”是完全綁定在一起的。如果一個硬體元器件有至少一個安全機制(例如:微控制器的看門狗),則該元器件的故障不被歸類為單點故障。對于安全機制無法覆寫的那部分故障被歸類為殘餘故障。

2.2.殘餘故障(Residual fault)

殘餘故障具有以下兩個特點:

1.可直接導緻違背安全目标

2.是硬體要素的故障,對于該硬體要素,有至少一個安全機制預防其某些違背安全目标的故障。

比如如果僅用棋盤(checkerboard) RAM 測試的安全機制來檢查随機存儲器(RAM)子產品,則不能探測出橋接(bridging)故障,橋接故障就如果可以直接導緻違反安全目标的話,便可以稱其為殘餘故障。

值得一提的是:在實際開發設計時,幾乎沒有診斷覆寫率能達到100%的安全機制。

2.3.可探測的雙點故障(Detected dual-point fault)

可探測的雙點故障具有以下兩個特點:

1.僅與另一個(雙點故障有關的)獨立硬體故障聯合才能導緻安全目标的違背

2.被防止其潛伏的安全機制所探測。

比如被錯誤探測和糾錯碼(EDC) 保護的閃存:按照技術安全概念通過測試對這些 EDC邏輯中的故障進行探測并觸發響應,如通過警示燈通知駕駛員。

2.4.可感覺的雙點故障(Perceived dual-point fault)

可探測的雙點故障具有以下兩個特點:

1.僅與另一個(雙點故障有關的)獨立硬體故障聯合才能導緻安全目标的違背

2.在規定的時間内被駕駛員所感覺(有或無安全機制探測)。

比如故障發生後會顯著和清楚的影響功能,雙點故障可被駕駛員感覺。

注意:

如果雙點故障同時被駕駛員感覺并被安全機制探測,該故障可被歸類為可探測的雙點故障或可感覺的雙點故障,但它不能同時被歸類為這兩種類型。因為一個故障如果既是可探測的雙點故障, 又是可感覺的雙點故障, 則潛伏故障度量會錯誤的計算該故障兩次。

2.5.潛伏的雙點故障(Latent dual-point fault)

潛伏的雙點故障具有以下兩個特點:

1.僅與另一個(雙點故障有關的)獨立硬體故障聯合才能導緻安全目标的違背

2.不被安全機制所探測也不被駕駛員感覺。直到第二個獨立故障發生前,系統始終可以運作且駕駛員也不知道發生了故障。

比如對于被 EDC保護的閃存。在讀取時,EDC糾正了單個位的永久性故障值,但這不是在閃存中糾正也無信号訓示。在此情況中,故障不能導緻安全目标的違背(因故障位已得到了糾正),且它不是可探測的(因對單個位故障無信号訓示),也不是可感覺的(因對應用的功能性無影響)。如果在 EDC 邏輯中發生了額外的故障,它可導緻失去對單個位故障的控制,進而導緻潛在的安全目标的違背。

2.6.安全故障(safe fault)

顧名思義,安全故障就是即使發生了也不違背安全目标的故障。細心的讀者可能發現了圖中有兩處安全故障,它們對應着兩種不同的情況:

1.n>2的全部n點故障 (除非安全概念顯示它們與安全目标的違背有關聯)

2.與安全目标違背無關的故障。

EPB功能安全筆記(10):硬體随機失效分析基礎

随機硬體故障的類型,截圖來自GB/T 34590, 第5部分

比如,三個電阻串聯以克服短路情況下的單點故障問題,因為需要三個獨立的短路才會違背安全目标(n=3),每個獨立電阻的短路可被視為安全故障。

2.7.小結

我們可以參考下圖來梳理思路,将上述提到的失效模式進行串聯。

EPB功能安全筆記(10):硬體随機失效分析基礎

失效模式分類流程圖示例,截圖來自GB/T 34590, 第5部分

下篇預告

本文系統地介紹了随機硬體失效相關的概念,為後續文章的展開奠定基礎。下期我們将站在鳥瞰的視角對FTA(Fault Tree Analysis)進行介紹。

繼續閱讀