天天看點

《資料驅動安全:資料安全分析、可視化和儀表盤》一1.2.4 統計學

本節書摘來異步社群《資料驅動安全:資料安全分析、可視化和儀表盤》一書中的第1章 ,第1.2.4節,[美]傑·雅克布(jay jacobs)鮑布·魯迪斯(bob rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

或許我們在這裡有些偏向,但是撿拾起一些統計學知識幾乎會改變你生活的每個方面。它不僅會改變你看待以及學習周圍世界的方法,而且會使你自身變得更加有趣,甚至可能在身邊的人們眼中更具魅力。嚴肅地說,雖然統計學(在這裡我們把它作為一項技能進行讨論)是一個寬泛的主題,是很難喝到水的深水井。我們使用術語去描述逐漸演變的統計技術與方法集合,這些技術與方法現在已經演變成了(還在持續演變)嘗試從資料中學習的狀态。這些技能不但包括經典的統計學,還包括像資料挖掘以及機器學習這樣的新技術。非常幸運的是,你可以從相當傑出的一代代人們的成功與失敗中學到很多内容,這些人處理的資料和我們的資料非常相似,即使他們的電腦隻是筆和紙,而我們使用的是電子電路。不管你對于統計與資料分析工具的個人觀點如何,有大量證據表明,當統計學用于資訊安全領域後,其影響力波及其他幾乎所有科學領域。

除了顯而易見的“從資料中學習”的方法之外,有一些更加深入的理由去集中提高你的統計技能。

盡管資料從不說謊,被它欺騙卻很容易。作為具有啟發式思維的生命,我們擁有從周圍世界中提出模式及含義的能力。這種發現隐蔽的聯系及模式的能力通常很有益處,人們每天都會使用這種能力。然而需要注意的是,這種技能也可能會誤導你,你可能會認為你看見了根本不存在的模式及聯系。對統計的良好了解會使你更深層次地認識到這點,它的一些政策會使得這樣的錯誤結論數量達到最低。

盡管我們剛說過資料從不說謊,但是生成及收集資料的方法會産生欺騙性的結論。比如詢問我們身邊人們的看法會導緻錯誤地肯定自身的觀點,因為我們很自然地和志同道合的人聚集在一起,且想法趨同一緻。資料本身可能并不具有欺騙性,但是它卻容易導緻人們聯想到一些不相符的含義,就如1936年大選投票中的預測故事一樣(請看下文“資料産生欺騙”)。

統計學并不僅是工具的集合,它是具有自己工具集的工具箱的集合。你可以從描述性統計開始,描述性統計将資料簡化為描述資料某些方面的數字。舉例來說,你可以通過計算均值、模、中位數以得到資料的中心,也可以通過标準差來描述資料的分散程度,可以使用偏斜度解釋資料的對稱性,也可以使用峰态描述峰寬。然而不管什麼時候,隻要你簡化資料,都會在一定程度上失去資料的細節,這時候,可視化方法可以提供很好的服務。你使用可視化方法建立一段表述或者資訊,這段資訊包含并傳達每個資料點,沒有簡化。我們将這種類型的可視化看作“描述性可視化”,因為它僅僅簡單地描述資料。

除了過于簡化的挑戰之外,描述性統計局限于僅能描述你所收集到的資料。掃描少數幾個系統然後計算漏洞的平均數,宣稱統計數值描述了環境中的所有系統,這樣的做法是不對的。推理統計可以幫助你更深入地研究資料,而不僅僅是描述觀察值。當給你一個群體的較小代表性樣本時,你可以對更大的群體做出推理說明。這裡的關鍵詞是“代表性”。統計學教會你“實驗設計”(感謝fisher以及他的同僚們),它會幫助你收集資料,以便于你減少被資料誤導的可能性。你當然希望收集的樣本具有代表性,那麼就使用正确的資料收集方法吧。在過去,很多人已經有過前車之鑒,千萬不要重蹈覆轍。

資料産生的欺騙

《literary digest》雜志進行了一次民意測驗,嘗試預測1936年的總統競選結果。他們通過電話簿、俱樂部會員身份以及雜志訂閱資訊收集人名單。結束測驗時,回應資訊已經超過200萬份并且預測了一位似乎明顯的勝利者:alfred landon(對于這些人來說,美國曆史并沒能如他們所願,民主黨候選人roosevelt赢得了這場大選,他在46個州中勝出)。《literary digest》雜志的問題在測驗之前就已經存在,故障出在資料的來源。注意這一年大選在1936年,此時美國的大蕭條還沒有結束。他們通過電話簿、俱樂部會員身份以及雜志訂閱資訊收集人名單,而這些人大體上屬于中層及上層階級,這些人普遍偏愛landon,以至于得到的答案在數學方面正确而與實際完全不符。

資料沒有說謊,如果他們想知道,在使用電話、俱樂部會員身份以及訂閱雜志的美國人中,哪位總統候選人會獲得最多選票,這些資料陳述了一個準确的故事。但是他們并非在尋找那個故事,他們想要知道的是美國所有已注冊選民的看法。由于在選取資料樣本來源時有偏差,導緻加入了資料中根本不存在的含義。

他們擁有的史無前例的200萬份回複的事實并不能幫助提高民意測驗的準确度。當這樣類似系統性的錯誤存在時,收集更多資料隻會形成更大的偏差樣本。為了徹底闡明這一觀點,在同樣的1936年選舉中,一個叫george gallup的年輕人收集了一份相對較小、僅有5萬選民的樣本,他應用了更多有代表性抽樣方法,正确地預測了roosevelt将會成為1936年選舉的勝利者。幾年以後,《literary digest》雜志停業,而gallup inc.現在已經成為一個國際性機構,仍然做調研以及收集資料的咨詢。

應該始終以一種尊敬與謙卑的态度來對待統計學。當你不知不覺地慢慢進入應用數學的深處時,你會發現找到那些不存在的含義(學術上稱作i類錯誤)有多容易。但是更重要的是要了解無論有無資料這種錯誤都會出現。這種錯誤甚至會出現于你填寫excel電子表格的一個空格之前,工具箱中最好的工具被設計用于限制這種類型錯誤出現的機會,但是單獨的統計是不夠的。你需要将經驗與資料相結合以減少被誤導的可能性。即使經驗與資料相結合,這種錯誤仍可能出現。但是你可以通過應用嚴謹的作風以及方法來減少這種錯誤發生的頻率。當這種錯誤真的出現時,這嚴謹的作風會把你放在一個更好的位置去從錯誤中學習。

我們已經建立了統計學應用的權威性,應該指出的是,即使沒有進階的統計技術,你也可以從資料中學到很多内容。回想之前提到過的“描述性可視化”,花費一點時間看看周圍的那些可視化的資訊。它們通常不是從統計模型中建立,而是描述一些資料集并說明其中的關系。圖1-1中snow所繪的board street上水泵附近區域的圖沒有涉及邏輯回歸以及機器學習。這幅圖僅僅是位址與死亡間關系的可視化描述。毫無疑問,你可以使用簡單的統計方法以及描述性可視化提高保護資訊資産的能力。你所需要的隻是提問、收集證據、做出清醒的認識以及将其傳達給其他人的耐心。

繼續閱讀