天天看點

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

作者:焉知汽車

本文要點

在上文(EPB功能安全筆記(8):FMEA方法論介紹)中系統地介紹了ISO 26262中推薦的分析系統失效的方法——FMEA (Failure Mode and Effects Analysis)。總的來說,FMEA 有助于及時識别和評估系統或産品使用過程中所有可能的風險,并制定和實施适當的措施以優化産品開發和生産環節的品質控制以降低故障成本(如召回率)。于此同時,上文以VDA和AIAG聯合釋出的标準“Failure Mode and Effects Analysis – FMEA Handbook”為背景系統地介紹了FMEA分析的關鍵步驟。

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

Failure Mode and Effects Analysis – FMEA Handbook,封面截圖

但是,當真正将FMEA應用于分析ISO 26262的研究對象——E/E系統時,它的局限性就暴露出來了。最典型的問題為:

  • 對一些失效模式,E/E系統定義了監控子產品,如果在車輛運作過程中及時探測失效并采取适當的措施,可以減輕甚至規避危害以降低失效影響(failure effect)的S評分,但是DFMA中并未考慮。

2019版的“Failure Mode and Effects Analysis – FMEA Handbook”引入了一個全新的分析方法——FMEA-MSR(FMEA for Monitoring and System Response)。FMEA-MSR和ISO 26262有着很大的聯系,在标準的字裡行間都讓人有理由相信這個新方法的誕生來自ISO 26262的要求的驅動。本文試圖對FMEA-MSR的方法論展開解讀,以期給讀者帶來一些有價值的參考。

注:本文提到的FMEA均指DFMEA(Design FMEA),不包括PFMEA(Process FMEA)。

1.FMEA在ISO 26262面前的局限

簡要概括FMEA的方法論,即:識别風險→風險評估→制定優化措施。而對于風險評估,則采用三個次元:

  • S(severity 嚴重度):評估故障發生後對最頂層(如整車層)造成的嚴重程度。評分1~10,10代表最嚴重。
  • O (occurrence 頻度): 評估采取了相應的預防措施後故障發生的可能性。評分1~10,10代表沒有可能性最大。
  • D(detection 探測度):在産品釋放給客戶前将故障探測出來的探測措施的有效性,通常探測措施指的是量産之前産品驗證階段定義的一系列測試。評分1~10,10代表探測措施的有效性最差。

不難發現,FMEA分析的目的在于産品量産之前優化設計,保證産品交到使用者手上時所有可能出現的風險的機率已經降低到可接受的範圍。

這個方法對于分析機械或者液壓系統是合适的,一旦底層失效發生,必然對頂層産生失效影響。比如當正在工作的車用液壓千斤頂發生管路洩露時,必然會導緻車輛下落,危及車底的維修人員的安全。這樣一來,考慮到失效造成的嚴重度很高,在開發千斤頂時要對管路進行充分的設計和驗證以保證千斤頂在進入市場之後的可靠性。

但是,如果千斤頂裝有液壓管路監控子產品,當發生管路洩露時,會在徹底失去支撐能力前鳴笛報警,使得維修人員能及時逃離,是不是失效造成的嚴重度可以降低?理論上如果監控的有效性足夠高,就可以将嚴重度降到可接受範圍時,進而對管路設計要求的嚴苛程度就可以降低。

而監控恰恰是功能安全開發的精髓。ISO 26262的目标可以簡單概括為:當故障發生後,E/E系統隻要在故障容錯時間間隔(FTTI, fault tolerant time interval)内進入安全狀态(系統降級或者報警),就可以避免危害的發生。而這一目标的實作就依賴及時且有效的監控。

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

截圖來自ISO 26262, part1, 2018

從上面可以看出, FMEA和ISO 26262的關注點是不同的。FMEA更關注讓使用者“用得省心”,要求産品交到使用者手上之前保證産品故障機率足夠低;而ISO 26262則更關心“安全”,即使産品交到使用者手上後出現故障的頻率比較高,隻要對那些可能危及人身安全的危害,系統每次都能及時監控出故障并及時進入安全狀态(比如提醒駕駛員或者系統降級)以避免危害就符合ISO 26262要求。

這樣一來,因為監控的作用展現在使用者使用過程中而不是産品量産之前,是以如果用FMEA的方法論來指導功能安全開發,則會在量産前的分析過程中忽略監控的作用。造成的後果就是對整車層的失效影響(failure effect)的嚴重程度評分過高,進而對失效影響對應的失效網上的失效原因(failure cause)采取了“過設計”的措施,既沒有有效地篩選出功能安全開發真正的關注點,又增加了研發成本。

由此,FMEA-MSR的誕生也是必然。

2.FMEA-MSR的方法論

簡單來說,FMEA-MSR将已有的FMA作為base,對FMEA中已經識别出來的失效網作進一步的分析:當使用者在使用過程中是否對該失效網的失效原因(failure cause)有監控?

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

DFMEA與FMEA_MSR的關系

進一步地,需要确定以下問題:

  • 對于已經存在的監控,是否需要優化?
  • 如果沒有監控,是否需要增加?

要回答這兩個問題,需要确定一個評估準則。FMEA-MSR中引入以下三個參數來建立評估準則,從标準中摘抄如下:

  • Frequency (F): represents the Frequency of Occurrence of the Cause in a given operational situation, during the intended service life of the vehicle
  • Monitoring (M): represents the Detection potential of theDiagnostic Monitoring functions (detection of Failure Cause, Failure Mode and/or Failure Effect)
  • Severity (S): represents the Severity of the Failure Effect

通過定義中可以直白地看出,FMEA-MSR就是用來分析汽車上的E/E系統的,這讓我們有理由相信這個方法論就是為配合ISO 26262而創造的。

下面就這三個參數展開說明。

2.1.Frequency (F)

F值用來評估車輛使用壽命過程中失效原因(failure cause)發生的頻率。在評估F值是可以從以下幾個方面進行參考:

  • DFMEA的評估結果
  • PFMEA的評估結果
  • 售後資料
  • 客戶投訴等等

值得一提的是,一些失效原因(failure cause)可能隻有在車輛運作過程中的特定場景下才會産生失效影響(failure effect),是以在這種情況下,可以考慮場景在車輛運作周期中的曝光度來适當降低F值。

舉例來說,如果從售後資料中回報的ppm值确定對某個失效原因的評分為F=3,考慮到這個失效原因隻有當車輛處于駐車模式時才會引起風險,駐車工況在整個車輛運作周期中的曝光度比較低,可以将F降為2。

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

Frequency評分表,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

2.2.Monitoring (M)

M值用來評估在使用者使用過程中監控正确且及時地監控出故障并進入安全模式的能力。

這裡有一點需要注意,在評定M值時,需要假設monitoring設計和測試都符合預期。對這一假設的解釋将在第3章中展開。

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦
EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

Monitoring評分表,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

Monitoring評分示例,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

2.3.Severity (S)

對于S值的評定,實際上在傳統的FMEA和FMEA-MSR中都是用的同一張表格。不同的是前者在評估嚴重度時不考慮監控的影響,而後者則可能受到監控能力的影響。具體影響表現為:

  • 如果M=1,則S值可以使用在監控作用下減輕嚴重度後的值;
  • 如果M≠1,則S值隻能使用沒有監控時評估的嚴重度值。
EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

Severity評分表,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

2.4.優化準則

根據标準中的推薦,結合F/M/S值和下表來确定采取優化措施的優先級,并将優先級分為三等:

Priority High (H): Highest priority for review and action. The team needs to either identify an appropriate action to lower frequency and/or to improve monitoring controls or justify and document why current controls are adequate.

Priority Medium (M): Medium priority for review and action. The team should identify appropriate actions to lower frequency and/or to improve monitoring controls, or, at the discretion of the company, justify and document why controls are adequate.

Priority Low (L): Low priority for review and action. The team could identify actions to lower frequency and/or to improve monitoring controls.

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦
EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

Action Priority,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

推薦優化準則:

當同時符合以下兩個條件時,推薦采取優化措施:

(1).Severity值被評為9或10

(2).Action Priority被評為High或Medium

進一步的問題是,如何進行優化?

最有效的兩個優化方向為:

(1).優化零部件設計或者使用失效率更低的零部件以降低F值

(2).提高監控子產品的覆寫度來降低M值

3.如何避免監控設計的缺陷?

在2.2中提到,在對監控的有效性進行M值評分時,假設監控的設計符合預期。但是實際上監控也存在着有設計缺陷的可能。如果監控存在設計缺陷,FMEA-MSR的分析結果将沒有意義。那麼,如何避免監控的設計缺陷呢?

從本質上來講,監控是産品的一個功能,是以我們可以使用傳統DFMEA的分析方法,使用“七步法”對監控功能進行失效分析。

EPB功能安全筆記(9)——FMEA說: 唯有進化才能不負ISO 26262的力薦

FMEA“七步法”

對于監控功能來說,其失效模式可以概括為:

  • Failed to detect fault
  • Falsely detected fault (nuisance)
  • Unreliable fault response (variation in response capability)

在建構好功能網和失效網後,通過定義相應的措施來保證監控功能的可靠性。

預防措施(Prevention action): 用以定義監控機制及時探測失效原因(failure cause)的有效性;

探測措施(Detection action):用以定義對驗證監控機制是否符合預期的驗證的完整性。

分别對預防措施和探測措施評定O值和D值,如果需要優化則對監控功能的設計進行改進,以此來保證監控的有效性。

由此可以看出,傳統的FMEA和FMEA-MSR不是完全獨立的,兩者互相依賴:使用FMEA-MSR可以降低FMEA頂層的S值;貫徹FMEA的分析方法可以提高FMEA-MSR對應的監控的可靠性。

4.展望

自2019年FMEA-MSR方法論面試以來,汽車行業的主流公司正在對其進行研究,據筆者所知,暫時還沒有公司已經落地。一部分原因是實施FMEA-MSR不僅開發工具需要更新,對企業原有的FMEA base也有較大改動,同時對既有的開發流程也有挑戰。不過考慮到FMEA-MSR才是真正适用于E/E系統分析的方法,在加上和ISO 26262有着密切的關聯,相信在不久的将來會看到越來越多的落地方案。

下篇預告

本文和上文對ISO 26262推薦的分析系統失效的方法FMEA進行了介紹。接下來将展開對 ISO 26262推薦的另一種分析方法FTA的介紹。