天天看點

《資料驅動安全:資料安全分析、可視化和儀表盤》一1.2.1 領域專業知識

本節書摘來華章計算機《資料驅動安全:資料安全分析、可視化和儀表盤》一書中的第1章 ,第1.2.1節,[美]傑·雅克布(jay jacobs)鮑布·魯迪斯(bob rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

一個資料科學家需要領域專業知識的事實應當是不言而喻的,也似乎是顯而易見的,但隻有在考慮更高的目标時,進行資料分析才有意義。你關于資訊安全的經驗将引導分析方向,提供資料的來龍去脈,并幫助将含義應用于結果。換言之,領域專業知識将有益于開始、中間和所有資料分析工作的終點。

為什麼專業知識不應該成為攔路虎

我們很可能在這裡白費口舌。如果你正在讀這本書,那很可能你擁有領域專業知識并看到了資訊安全領域中使用資料驅動方法的價值。是以,與其花精力讨論的資料分析領域的專業知識的優勢,不如介紹一些你可能會遇到的專家(或持懷疑态度的上司)對資料分析工作的反對意見。

人比模型更聰明。有一些人認為,人總是會勝過算法(或統計資料,或模型),并且還有一些事實可以證明。比如教一個機器去抓住飛球是非常具有挑戰性的。就像kahneman和klein在2009年的論文《conditions for intuitive expertise: a failure to disagree》中指出,但是,決定何時人們的表現将優于算法在很大程度上依賴于任務的環境。如果環境是複雜的,并且回報是延遲或不明确的,算法一般會勝過人類的判斷。是以,問題就變成了,資訊系統的安全性有多複雜,以及回報有多清晰?當你更改或添加安全控制時,你收到多少關于它實際保護資訊資産情況的回報?

結果是資訊安全發生在一個非常複雜的環境下,但是,這并不意味着你把所有的雞蛋都放在算法籃子裡。意思是,你應該對任何純粹靠人為判斷的方法持懷疑态度,你應該設法加強和支援專家的意見。這不是将算法與人為判斷進行比較,設立一個非此即彼的選擇是不明智的,應比較純粹的人為判斷與結合了算法及資料分析的人為判斷。你不想删除人的因素,但你應該對未經資料證明的觀點持懷疑意見。在一個複雜的環境中,人的直覺和資料分析相結合,将産生最佳效果,并創造學習和穩固基礎設施的最佳機會。

它僅僅是資料造假。這顯示了對資料統計以及資料分析的普遍不信任環境,因為資料統計分析經常出于一些見不得人的動機被濫用以及誤用(在某些情況下資料完全是捏造的)。在某種程度上,這種不信任是基于社會工程師極易擷取的集體常識。即便如此,由于我們的目的是從資料中學習,我們就處于不一樣的出發點。我們坐在一堆堆隐含很多資訊和特征的資料面前,我們要去發現這些資訊和特征。如果因為資料統計曾經被濫用我們就不使用資料分析,就如同因為汽車偶爾被用于接送服務而不再開車一樣可笑。我們要習慣于将資料統計加入到我們的資訊安全工具箱内。

并不是說資料分析是萬無一失的,即便有時候資料分析産生了錯誤的結果,也許是因為錯誤的資料收集,或由欠專業的分析師操作,或源于處理過程中的錯誤,或僅僅是因為使用excel(這種情況确也無法避免)。但是,将專業知識和具體資料相結合,就能夠有效減少錯誤的發生。再次強調一下,減少錯誤的關鍵在于将資料分析和專業知識進行結合。

資料分析不是制造火箭的科學,這個說法有兩個含義。第一個含義是,不管我們嘗試解決什麼問題,我們都可以用常識去解決它。這個觀點可以追溯到我們在上文提出的“人比模型更聰明”,并且會議桌上的一群人不依賴資料分析就解決一個複雜的問題。但正如我們讨論到的,卻也有必要在會議上為資料分析提供一席之地,因為有資料分析總比沒有好。

上邊這個說法的第二個含義就是,資料分析過于複雜且花費巨大(時間、金錢、資源)。這樣的觀點是完全錯誤的,這可能更擔心在實際操作中會帶來令人不爽的改變,而不是真正擔心資料分析所花費的時間。資料分析的很多工具都是開源的(如果某些組織不願意開源,那也會有大量的商業解決方案可以選擇),而唯一需要付出的僅僅是花時間學習本書提到的一些資料分析的基本技術和方法。實際上,如果能夠正确地将工具和經驗進行結合的話,資料分析可以進行得非常迅速,甚至可以實時完成。

我們沒有資料。另一種形式的反對意見提出,我們沒有精确資料(這在風險分析中更為普遍)。反對資料的人認為“非完美資料即是毫無價值的”,并阻撓開展設計良好的實驗。這個觀點是虛假且害人的,如果我們隻是等待着完美的資料,那麼我們将會永遠隻是等待,并且漏掉了很多從資料中學習的機會。駁斥這個反對意見最重要的核心論點是,我們并不需要完美資料。我們僅僅需要可以從已有的混雜資料中學習的方法。正如douglas hubbard于2010年在其著作《how to measure anything》中提到的,“事實上,相比于預期,我們經常具有更多的資料,我們隻需要更少的資料,并且可以更容易地通過觀察從資料中獲得更多的資料”。是以,一般來說,用于安全分析的資料是絕對存在的,通常情況是,它們正等着被收集起來呢。我們能對粗略的資料加适當的改動、收集,然後準确地分析資料。現代的資料分析方法已經解決了如何處理具有噪聲的、不完備資料的問題。

我們會墜入黑暗。這是我們考慮的最後一個觀點了。這個觀點并不是那麼強烈地反對資料分析,僅僅算一個障礙而已。當你在會議上被視為某個領域的專家時,大家就希望你能給出問題的解答,而當會議的問題不清晰、不确定的時候,就會産生沖突。資料分析恰恰要求适當的自我認知和人性,以便為自以為是的疑慮留有餘地。即便你自信地宣稱密碼是滿足一定複雜度若幹位字元,但你永遠不知道可用性和安全性之間的平衡點。人的信心是需要用人性平衡的,可以根據新的證據知識來更新一個人的觀念。資料分析中的這個障礙并不主要局限于分析師,其他涉及分析的領域專家也同樣面臨自身的人性問題。畢竟并不是每個人都願意聽到“他的世界不是平的”。

下一篇: 配置項測試

繼續閱讀