天天看點

《資料驅動安全:資料安全分析、可視化和儀表盤》一1.1 資料分析簡史

本節書摘來華章計算機《資料驅動安全:資料安全分析、可視化和儀表盤》一書中的第1章 ,第1.1節,[美]傑·雅克布(jay jacobs)鮑布·魯迪斯(bob rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

想要領略資料分析統計和可視化的魅力,一個最好的方法就是回顧這些方法嶄露頭角的曆史。下面的例子生動地展示了使用這些方法前後的對比圖,示範了新技術帶來的巨大好處。

20世紀之前,對資料的使用和統計仍然是相對落後的。資料分析雖然早在18世紀就取得了長足的發展,但是彼時大多數科學研究隻是用一些基本的描述性統計方法來證明一些假說的正确性。無力從繁雜的資料(幾乎所有的真實資料都會有多多少少的噪聲)中得出明确的結論,導緻了大量的科學辯論聚焦于對資料的看法,而不是資料本身。19世紀,兩個醫學教授就霍亂的病源展開了一場激烈的辯論,這種細菌感染在當時往往是緻命的。

1849年,倫敦霍亂爆發,狀況極其慘烈,僅僅一年,就奪走了超過14 000人的生命。人們當時并不了解霍亂的病源,兩個醫學教授提出了兩個互相競争的理論。其中,william farr,一位公認的、受人尊敬的流行病學家,堅持認為霍亂是由分解不衛生的物質産生的空氣污染引起的(官方稱為瘴氣理論)。而另一位也十分成功的(不如william farr出名)流行病學家john snow則提出,霍亂的傳播是因為食用了被“特種動物病毒”(早于細菌和病菌的發現)污染的水。兩位學者就此辯論了多年。

farr在1852年發表了“1848-1849英國霍亂死亡率報告”《report on mortality of cholera in england 1948-49》,他在報告中提供了一張采集于倫敦38個區的資料表,裡邊包含了8個可能的解釋性變量。在這篇文章中,farr提供了一些相對簡單的(在今天看來)統計資料,并且在霍亂死亡數和地區平均海拔之間建立了關系(海拔越低的地區有更多的人死亡)。雖然在farr收集的8個因素中,有一個是霍亂死亡數和飲用水源之間的關系,但是他斷定霍亂與海拔的關系比水源更有意義。farr的理論具有一定的資料支援和邏輯性,并且被他的同行所接受,在當時被奉若真理。

而john snow則是公開質疑farr的理論,并且不遺餘力地證明自己的觀點。據說他甚至在1854年霍亂大爆發期間挨家挨戶地走訪倫敦soho區,收集相關的資料資訊。也正是通過這場大爆發的霍亂以及他收集的資料,snow整理制作了一張至今聞名的圖,見圖1-1。在這張手繪的soho地區地圖中,snow在有過霍亂死亡報告的地方做了一些細小的标記。在這個圖上疊放一張broad street飲用水泵(附近市民會來此擷取飲用水)的位置分布圖,就能看出标記的點明顯地在水泵位置周圍增多。有了這個分布圖并在snow堅持不懈的請求下,倫敦終于同意将soho區處理飲用水的水泵拆除,不久,流行的霍亂在該區消退。然而這些效果也沒能夠說服那些針對snow的批評家。一直到snow 1858年去世以後,霍亂的病源還在争論不休。

《資料驅動安全:資料安全分析、可視化和儀表盤》一1.1 資料分析簡史

這些對霍亂病源的争論使用了包括資料和可視化等技術(遠在有計算機出現之前),但是争論雙方誰也沒能夠說服對方。在2003年,英國的統計學家通過使用現代的統計方法去計算farr在1852年公布的資料,對他和snow之間的這場争論做了重新檢驗。他們發現,farr用來證明霍亂源于空氣傳播的資料恰恰證明了snow的觀點。他們甚至推測,如果farr可以用現代的統計學方法處理他收集的資料,farr肯定會改變自己的觀點。幸運的是,讀者是能夠接觸到這些現代的統計方法的。

就在farr和snow關于霍亂的争論之前的幾年,倫敦北部rothamsted一個農業研究所開始進行實驗,研究肥料對作物産量的影響。研究人員花費了數十年進行實驗并且收集記錄了各類實驗資料,如作物産量、土壤的測量資料以及天氣因素等。他們遵循了一種現代日志記錄方法,十分用心地收集和存儲了這些資料,但是仍然無法擷取到這些資料的全部價值。直到1919年,他們雇用一個年輕有為的統計學家ronald aylmer fisher,希望fisher通透地分析這些超過70年的資料,來幫助研究所了解這些資料。fisher接受了這個充滿挑戰性的任務,很快地紮入到這些混亂的資料裡,并且,他發現很難将肥料對作物的影響與其他因素隔離開,比如天氣因素或者土壤品質。fisher在這項挑戰性的工作中的發現不僅僅改變了統計學領域,而且改變了20世紀幾乎所有的科學領域。

fisher的發現(對統計學具有革命性貢獻的發現之一)是,如果一個實驗設計得當,那麼不同因素對實驗結果的影響不僅可以隔離,也可以分别測量計算。fisher恰當地設計了這個實驗,進而可以将天氣因素、土壤品質以及其他影響實驗的因素隔離開,和不同的肥料混合物的效果做對比。他的這項工作不僅僅用于農業研究,fisher在rothamsted發明的實驗方法同樣被廣泛應用于今天,從醫療到考古挖掘等幾乎一切行業。fisher以及他同僚們的工作對20世紀的科學發展起到了革命性的作用。在18世紀,統計學家隻是簡單地收集資料,然後得出這些統計資料來支援自己的觀點。而今,他們有了相應的工具,可以用來設計完善的實驗,也可以使用相應的技術來模拟實驗因素怎樣影響他們的實驗和結果。

目前,科學領域包含了統計模型,很多的統計和科學教育聚焦在開發和測試統計模型以及這些模型背後的假設。幾乎所有的統計學問題都以“統計模型是怎樣的?”為開始,并且以可以使用這個模型來描述問題甚至預測相應結果為結束。這代表着科學研究方法的一個巨大飛躍,現在已經可以完成一些以前根本不可能做的研究。如果沒有計算機,恐怕科學研究還停留在考慮怎樣讓這些技術變成現實,但是目前已十分普及的計算機為資料分析開辟了一個新的領域,這個領域在之前是不可能的和深不可測的。

farr和fisher的事件能夠反映之前的資料分析的幾個發展階段,可是卻很難僅用單個的人物或者事件來反映當今的資料分析的發展曆程。首先令人難忘的是統計學家john tukey,1962年他就在文章中提到資料分析科學應該不同于統計學(即使資料分析會用到統計學)。他說,比起數學内容,資料分析必須包含更多的科學内容(能說“資料科學”的概念從此誕生麼?)。tukey不僅僅是一位成功的統計學家,還為統計學貢獻了無數的規程和技術,他還是将可視化技術應用于描述和探索資料的早期支援者。你會在本章的後續部分繼續接觸一些tukey(圖克)的工作成果。

讓我們跳到2001年leo breiman寫的一篇論文,他是專注于機器學習算法(在第9章讨論)的統計學家。在論文中他描述了資料分析的新文化,即不要注重定義模拟自然的資料模型,而要注重源于自然的算法模型。這種新文化的演變發展源于計算機科學與工程的發展,與傳統統計學有極大的不同(甚至毫無交叉點)。資訊時代産生了大量複雜的和充滿噪聲的資料,同時這些實際的疑難問題也催生了新的分析方法。breiman在論文中概述的富有革命性的想法是,模型應該由他們的預測準确度來驗證,而不是用傳統的統計測試來驗證(盡管傳統測試也不是毫無用處)。

根據文字表面的意思,你可能将“預測準确度”測試了解為收集今天的資料并确定它如何預測明天的世界,可它卻并非如此。這個想法是将今天的資料分為兩組,用一組資料來生成(或訓練)一個算法,然後用另一組資料去驗證(或測試)這個算法的預測準确度。為了提高這個分析方法的效果,我們可以把資料分成不同的訓練集、測試集,進行生成和驗證,多次重複這個過程。盡管這個分析方法還不适用于小的資料集,但是卻在現代的大資料集中表現十分優良。

目前資訊時代的資料分析和過去rothamsted的農業領域中資料分析有幾個主要的差別。首先,資料樣本大小有極大的差距。“經典”統計技術極大地受限于當時計算機的處理能力(在過去,“計算機”就是雇傭來成天做“計算”的人力),用較小的樣本集來生成和訓練出算法模型是不實際的。而在現代環境中,資料記錄了跨越成千上萬種系統生成的上百萬的資料變量,巨大的樣本量已經成為常态,并非個例。

其次,在許多應用環境和行業中,一個設計得當的實驗是幾乎不可能的(如果不是完全不可能)。你不可能把網絡分為對照組和測試組,你也不能通過僅僅保護一個關鍵應用的一部分來測試web應用防火牆的效果。這些環境限制帶來的一個後果就是資料具有更高的信噪比。機器學習技術(以及和資料挖掘相關領域的技術)與現代資料的挑戰都在共同發展。

最後,在21世紀,資料統計知識隻是有助于成功的資料分析的衆多技術之一。考慮到這點,下一節會花些時間介紹支援良好的資料分析的各種技能和特性。

繼續閱讀