天天看點

來自複雜系統故障的十八條經驗

  1. 複雜系統本質上都是高風險系統。

    各種備受矚目的複雜系統都是高風險系統,這是它們固有的内在屬性。盡管風險事故的爆發頻度時有高低,導緻系統固有高風險性的内因卻無從化解。這些風險又催生了各式各樣的風險防範措施,進而塑造了形形色色的複雜系統。

  2. 複雜系統都對故障嚴加防範并且行之有效。

    故障造成的高昂代價促使人們逐漸構築起重重防範措施來抵禦故障。其中既包括必要的技術措施,也包括多種機構性措施、制度性措施和監管性措施。

  3. 災難性事故是由多起故障共同造成的——單點故障不足以興風作浪。

    重大災難性事故往往是由多起無足輕重的輕微故障共同導緻的系統性的意外事故。這些輕微故障中的每一起都是事故的誘因,但隻有當它們疊加在一起時,才會釀成事故。換言之,故障的發生機率比重大系統事故的發生機率要高得多。

  4. 複雜系統中潛伏着變化多端的故障組合。

    除非真的發生事故,否則我們也很難看出這些故障如何會誘發事故。不斷演變的技術和工作機構,再加上人們為了排除故障而付出的種種努力,使得故障也不斷地發生變化。

  5. 複雜系統運轉時總是處于降級模式。

    由上一條可知,運轉中的複雜系統總是殘缺不全。之是以還能運轉,是因為系統内備有充足的備援部件,即便存在諸多缺陷,人們仍然有辦法讓它工 作。從以往的事故評估結果來看,事發之前系統幾乎都出現過險些釀成災難的“準事故(proto-accident)”。系統的運作過程是動态的,各種(機 構、人員、技術)部件會不斷發生故障進而被更替。

  6. 災難總是近在咫尺。

    在從業人員的身邊,各種潛在故障每時每刻如影随行。所有複雜系統都有可能導緻災難性的後果,這是它們的标志性特征之一。人們不可能完全杜絕這類災難性故障;這是由系統自身的性質決定的。

  7. 在事發之後将事故歸咎于某一“罪魁禍首”的做法是完全不可取的。

    重大故障都是由多重失誤共同造成的,是以,事故背後根本就不存在孤立的“罪魁禍首”。這種将事故歸咎于某一“罪魁禍首”的做法無法反映故障的技術本質;之是以抓住某一局部力量或事件不放并加以責難,無非為了迎合社會和文化訴求罷了。[1]

  8. 事後成見會扭曲事故評定人員的認知。

    在已知事故後果的情況下,人們會産生一種錯覺,傾向于認為當事人理應更早注意到釀成事故的種種事件。這意味着人們無法客觀地分析事故經過。 已然了解事故後果的事故分析人員往往會先入為主,難以站在當事人的角度忠實地還原事故經過。當事人似乎“理應注意到”這些因素“必将”導緻事故。事後成見一直是事故調查中的主要障礙,尤其是在有專家參與的時候。

  9. 操作人員分飾二角:他們既是故障的始作俑者,也是故障的防範者。

    系統内的從業人員一邊操縱系統從事生産,一邊防範事故的發生。外界很少有人能夠認識到這一角色的二重性。系統正常運轉時,唱主角的是生産角色;事故發生後,主角則換成了故障防範角色。實際上,系統操作人員一直長期且持續地分飾二角,這一點往往為外界所誤解。

  10. 當事人的舉動完全是在冒險。

    事故發生之後,人們往往會認為早在事發之前導緻事故的重大故障就已經在所難免,之是以最終會釀成事故,是因為當事人在故障迫近時處理失當或玩忽職守。但實際上,當事人在采取行動時完全是在冒險,他們無法預知自己的行動會導緻什麼後果。災後分析通常都不會将這些行為判作明智之舉。反過來看:即便處理得當,也不過是瞎貓碰上死老鼠,無法得到廣泛認同。

  11. 風口浪尖上的行為令一切模糊性消失殆盡。

    各種組織機構都存在一定的模糊性,而且這種模糊性往往是蓄意造成的,它展現在生産目标、資源使用效率、運作成本,以及對不同程度的潛在事故 的容忍度等多個方面。然而在評判那些被抛至風口浪尖的從業人員的行為時,這些模糊性卻消失殆盡。發生事故之後,當事人的行為往往會被視為“失誤”或“違 規”,但這類評判帶有嚴重的事後成見,往往無視業績壓力等其他誘因。

  12. 從業人員會對複雜系統進行調整。

    從業人員及一線管理者會積極調整系統,一邊擴大産值一邊減少事故。這種調整每時每刻都在進行,包括:(1)系統重組,避免脆弱部件遭受故 障。(2)集中稀缺資源,應對關鍵需求。(3)留出後路,用以躲避或修複各種可預期及不可預期的故障。(4)針對系統性能的變化建立各種早期檢測手段以妥 善緊縮生産規模,或通過其他手段提高系統的恢複能力。

  13. 複雜系統中的專業人才不斷更替。

    複雜系統中時刻存在着身懷不同程度的專業知識的從業人員和受訓人員。有關專業知識的關鍵問題主要表現在(1)對能夠勝任最困難、最艱巨的生産任務的稀缺專業人才資源的需求,以及(2)為了應對未來需求而進行的技術儲備。

  14. 變化會引入新的故障。

    在可靠性較高的系統中,重大事故的發生頻率較低,這使得人們更樂于接受變化,尤其是以減少影響較小的頻發性故障為目的引入新技術。然而這些 變化有可能會引入新的、後果嚴重的偶發性故障。在應用新技術清除已知的系統故障或追求更高的性能的同時,往往會埋下可能引發新的大規模災難性故障的隐患。 不少情況下,比起采用新技術清除掉的那些故障,這些新的、罕見的災難性事故所造成的影響甚至更加惡劣。

  15. 抵禦未來事件的效果受限于人們看待“肇因”的方式

    發生事故之後,為了防範事故中的“人為失誤”,人們通常會想方設法阻斷各種可能“導緻”事故的事件。這種做法治标不治本,在事故防範方面起 到的作用十分有限。實際上,由于潛在故障的模式不斷地發生變化,相同僚故重複發生的機率非常低。這類事後防範措施往往難以起到增強安全性的作用,反而還會 加重系統的耦合性和複雜性。這麼做不僅會催生更多潛在故障,而且還會加劇事故的排查難度。

  16. 安全性是系統整體的特性,而不是系統中各部件的特性。

    安全性是系統的自發屬性;它不是獨立的個人、裝置、組織中的某個部門或系統所能決定的。無論何時,安全性在任何系統中都是動态的;系統自身持續不斷的變化必然導緻災難性故障及其應對方式發生相應的變化。

  17. 人們持續不斷地營造安全的環境

chaunceyhao