天天看點

EPB功能安全筆記(8):FMEA方法論介紹

作者:焉知汽車

本文要點

在上文(EPB功能安全筆記(7):EPB safety concept分析示例) 以一條Safety Goal為例,結合系統架構和功能定義與邊界分析出功能安全需求,最終得到技術安全需求。技術安全需求将配置設定給軟體工程師和硬體工程師實作。

EPB功能安全筆記(8):FMEA方法論介紹

功能安全開發團隊合作示意圖

至此,對功能安全需求分析的介紹将告一段落,從本文開始将展開對另一個主要功能安全開發工作的讨論——安全分析(Safety Analysis)。

在ISO 26262中關注兩點失效:

随機硬體失效(random hardware failure):在硬體要素的生命周期中,非預期發生并服從機率分布的失效。

系統性失效(systematic failure):以确定的方式與某個原因相關的失效,隻有對設計或生産流程、操作規程、文檔或其他相關因素進行變更後才可能排除這種失效。

站在以結果為導向的角度,安全分析的目的就是借助分析方法去實作以下三點目标進而證明産品符合ISO 26262的要求。

  • 産品的失效被完整地識别
  • 系統性失效被有效地規避
  • 随機失效被控制在了可接受的範圍内

作為安全分析的開頭,本文将介紹常用的分析系統性失效的方法——FMEA(Failure Mode and Effects Analysis)。

1.什麼是FMEA?

1.1.FMEA的目的

對于企業來說,影響産品釋放和品質的因素包括技術風險,财務風險,時間風險和政策風險。FMEA (Failure Mode and Effects Analysis)則是針對技術風險,是對産品開發和生産流程中進行預防性品質管理的一種分析方法。FMEA 有助于及時識别和評估系統或産品使用過程中所有可能的風險,并制定和實施适當的措施以優化産品開發和生産環節的品質控制以降低故障成本(如召回率)。

EPB功能安全筆記(8):FMEA方法論介紹

1.2.FMEA在汽車行業的标準

FMEA曆史悠久,最早于1949年在美國軍事裝備開發中提出,後來形成了國際标注1977年引入汽車行業,并随着時間發展産生了兩個标準:

  • 德國汽車工業協會VDA:VDA Volume 4,“Product and Process FMEA”
  • 美國汽車工業行動小組AIAG:“FMEA Reference Manual”

這兩個标準的核心是一樣的,但是仍然在一些概念的定義等方面存在差異,随着汽車行業全球化合作越來越深入,這些差異不可避免引起合作上的不便,對标準統一的呼聲也越來越高,于是VDA和AIAG 在2019年聯合釋出了統一的标準“Failure Mode and Effects Analysis – FMEA Handbook”。

EPB功能安全筆記(8):FMEA方法論介紹

Failure Mode and Effects Analysis – FMEA Handbook,封面截圖

按照AIAG&VDA标準的分類,如果将FMEA用于從進貨到遞交給客戶的生産環節中,那麼稱為PFMEA(Process FMEA),由工廠管理相關工程師負責;如果将FMEA分析方法用作産品開發環節中,那麼稱為DFMEA(Design FMEA)。本文及後續文章隻涉及DFMEA的讨論,對PFMEA感興趣的讀者可以參考标準裡的詳細介紹。

1.3.FMEA的優勢和不足

正确且有效地進行FMEA活動,可以:

  • 提高産品的品質、可靠性、安全性,進而提高使用者滿意度;
  • 打通整車層(vehicle level)、系統層(system level)群組件層(component level)之間的接口,在與客戶和供應商溝通中更有針對性進而提高效率;
  • 降低失效引起的成本;
  • 避免幹擾項目SOP時間;
  • 有助于在公司内部建立know-how。

但是,FMEA也不是萬能的。首先,FMEA隻是用來做定性分析而不是定量分析。具體來說,對識别出的故障所能造成的風險大小的評估,以及對避免故障所制定的措施的有效性的評估,會因為不同公司之間的能力水準差異和了解上的差異而存在出入。這就導緻了不同公司之間的FMEA分析結果沒有比較的意義。

其次,FMEA隻用來進行單點故障分析,而不能進行多點故障分析。即在分析某個失效模式時,假設的前提是系統中所有其他功能都是正常工作的。

看到這裡可能有讀者想,既然隻能做定性分析,而且還不能分析多點故障,局限性這麼多,做FMEA還有什麼意義?在這裡需要給FMEA正名一下。分析方法的優劣取決于這個方法的側重點是什麼。對于FMEA來說,關注的是組成系統的要素,其目的就是盡可能完整地識别所有要素可能産生的所有失效,并對影響大的失效制定應對措施。對于某個失效所造成的影響,雖然A公司評分為9,而B公司評分為8,但是這兩個評分都不影響A公司和B公司都意識到這個失效的後果嚴重進而都根據自己的know-how制定相應的措施。從這個角度,FMEA分析的目的已經達到了。

我們可以說,單靠FMEA的分析結果不能完整地證明系統的可靠性,但是正确使用FMEA一定提高了系統的可靠性。

在這裡說句題外話,從上一節的介紹中不難看出,理論上來說FMEA可以用來分析任何類型的産品(E/E,機械,液壓等),從組成産品的底層要素入手進行風險分析。是以對于分析E/E産品的ISO 26262來說,自然而然地将FMEA作為一種自下而上的分析方法(歸納分析方法)作為推薦引入其中,用以輔助功能安全開發。但是不要錯誤得認為FMEA就是為ISO 26262服務的。通過上面的對比我們知道,實際上FMEA的使用範圍比ISO 26262更廣。

2.FMEA的方法論

在2019版的《Failure Mode and Effects Analysis – FMEA Handbook》中将FMEA活動歸納為七步,如下圖所示。

EPB功能安全筆記(8):FMEA方法論介紹

FMEA“七步法”

其中第1步和第7步是新版本加上去的,分别對計劃和最後的文檔工作進行了指導,而中間五步則是FMEA的核心。接下來将重點對這五步的關鍵點進行闡述。

2.1.Structural Analysis(結構分析)

這裡的結構指的是系統的結構。什麼是系統?系統由若幹個要素(element)組成,這些要素都具備相應的特征同時通過一定的關系與其他要素互相聯系。同時系統具有将系統與外界環境分開的明确的邊界,并且其與環境的關系由輸入和輸出定義。

結構分析的目的就是清晰、完整地描述産品的組成部分,包括系統的邊界。在DFMEA中用樹狀圖的形式描述了整個系統中的要素。

EPB功能安全筆記(8):FMEA方法論介紹

車窗升降系統樹狀圖示例

在這裡需要強調一點,整車系統由好幾家公司的産品共同組成,相應地,這個系統完整的FMEA也是這些公司各自的FMEA通過系統接口定義拼接而成,而這些接口定義來自于需求定義。

EPB功能安全筆記(8):FMEA方法論介紹

多廠家合作時完整FMEA示意圖

2.2.Function Analysis(功能分析)

對于要分析的産品,有基于産品設計需求定義出來的産品功能;而對每一個系統要素,也都各自對應一個或多個功能。功能分析的目的是保證産品功能被适當地配置設定給了相應的要素,進而将産品功能和要素功能關聯起來形成功能網絡。而這個工作将在已經确定的系統結構樹的基礎上完成。

EPB功能安全筆記(8):FMEA方法論介紹

車窗升降系統功能網示例

2.3.Failure Analysis(失效分析)

失效分析的目的是正确地識别出失效原因(failure cause)、失效模式(failure mode)和失效影響(failure effect), 進而基于功能網确定失效網。

對失效的定義來源于功能定義,當功能不能被實作時即為失效。功能的失效模式可以從以下幾個方面定義:

  • Loss of function (e.g. inoperable, fails suddenly)
  • Degradation of function (e.g. performance loss over time)
  • Intermittent function (e.g. operation randomly starts/stops/starts)
  • Partial function (e.g. performance loss)
  • Unintended function (e.g. operation at the wrong time,
  • unintended direction, unequal performance)
  • Exceeding function (e.g. operation above acceptable threshold)
  • Delayed function (e.g. operation after unintended time interval)
EPB功能安全筆記(8):FMEA方法論介紹

失效模式圖示

前面提到,一條完整的失效網包含以下三個因素,三者的關系如下。

  • 失效原因(failure cause)
  • 失效模式(failure mode)
  • 失效影響(failure effect)
EPB功能安全筆記(8):FMEA方法論介紹

失效網模型

failure mode是使要素無法滿足預期功能的方式;而failure cause則為使failure mode發生的原因;failure effect被定義為failure mode所引起的後果。

值得注意的是,當分别站在系統層、子系統層和部件層來看某一個失效時,這個失效可能在不同的層級下分别被定義為failure cause、failure mode和failure effect。舉例來說,OEM站在主機廠定義“電機扭矩非預期将為0Nm”為車窗無法升起的failure cause,但是對電機供應商來說卻是failure effect。

EPB功能安全筆記(8):FMEA方法論介紹

不同層級定義的FE/FM/FC

基于上述關系,在連接配接失效網時,連接配接failure mode和failure cause前,可以問這樣一個問題:為什麼這個failure mode會發生?而在連接配接failure effect和failure mode時,則考慮:這個failure mode發生了會産生什麼後果?

EPB功能安全筆記(8):FMEA方法論介紹

車窗升降系統失效網示例

2.4.Risk Analysis (風險分析)

風險分析的目的是通過評估風險的嚴重度(Severity)、頻度(Occurrence)和探測度(Detection)來确定需要采取優化措施的優先級。

Severity值指的是最頂層(整車層)的failure effect所造成的嚴重程度。對S值的評級見下表。簡單來說,10表示最嚴重,0表示最不嚴重。

EPB功能安全筆記(8):FMEA方法論介紹

Severity評分表,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

Occurrence值反映的是在為避免failure cause發生所采取的預防措施的作用下failure cause發生的可能性。對O值的評級見下表。簡單來說,10表示發生的可能性最大,0表示可能性最小。

EPB功能安全筆記(8):FMEA方法論介紹
EPB功能安全筆記(8):FMEA方法論介紹

Occurrence評分表,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

Detection值則反映了在采取的探測failure cause的措施的有效性。

這裡必須要強調一點:探測措施是指産品量産之前即交到客戶手中之前所采取的措施。通常探測措施指的是量産之前産品驗證階段定義的一系列測試。

對D值的評級見下表。簡單來說,10表示探測的有效性最差,0表示有效性最好。

EPB功能安全筆記(8):FMEA方法論介紹

Detection評分表,截圖來自Failure Mode and Effects Analysis – FMEA Handbook

實際上在這三個次元的概念中,Severity是最好了解的,但是Occurrence和Detection的了解上容易出現偏差。在這裡想做一些補充以便讓讀者能夠更準确地掌握這兩個概念。

首先可以問一個問題:預防措施設計非常完美,O值很低,是否有信心認為失效一定得到了有效的控制?

答案是否定的。我們可以從兩個方面提出質疑:

1.有沒有充分的證據說明預防措施100%取得了效果?

2.如何證明預防措施的設計實施環節沒有出錯?

簡而言之,O值隻是代表了預防措施的設計品質,而不代表預防措施的執行品質。設計品質取決于對failure cause的了解程度,理論上來說對failure cause越了解我們越能準确地“對症下藥”。但是“藥效”如何?在配藥的過程中是否出現從差錯?還需要進行進一步的驗證以來證明預防措施真的取得了預期的效果。探測措施就是用以驗證預防措施的有效性。

EPB功能安全筆記(8):FMEA方法論介紹

設計了解線路圖

對探測措施的定義或設計是否完整,将直接決定驗證的可信度。是以引入D值,對探測措施的驗證品質進行評分。

下表準确地描述了對O值和D值的了解。

O:Probability of occurrence D:Probability of detection
Product FMEA Evaluation of the quality of design to prevent the failure Evaluation of the quality of verification of the established design to prevent the failure

回到本節主題,在确定失效網的S\O\D值後,将進行風險分析,确定需要采取優化措施的優先級。對于風險評估的标準每個公司都可能有自己的标準,有些公司用RPN值,RPN=O*D*S,根據RPN的結果大小來确定優先級。有些公司采用S*O值的結果來進行确定。不管采取哪一種評價标準,核心的目的是識别出系統中最需要優化的點。

2.5.Optimization(優化)

優化的目的是對需要采取進一步措施的failure cause定義新的預防措施和探測措施,以降低O/D值進而将風險降低到可接受的範圍。

是否需要采取優化措施,采取什麼樣的優化措施,這是FMEA團隊的共同決定。當優化措施被定義以後,應相應地定義負責人和完成時間,以便對優化措施的狀态進行跟蹤。另外需要指出,優化是一個疊代的過程,對于同一個failure cause,可能要定義不止一輪優化措施。

下篇預告

本文系統地介紹了FMEA的方法論以及開展FMEA的關鍵步驟。不過,當我們将這一套方法論運用在分析E/E系統上時,其實會遇到一系列的問題,常見的有:

  • 怎麼用FMEA來分析軟體?
  • 對一些失效模式,軟體中定義了監控子產品,在車輛運作過程中及時探測失效,這類監控在FMEA是否應該考慮?如何考慮?