本節書摘來華章計算機《資料驅動安全:資料安全分析、可視化和儀表盤》一書中的第1章 ,第1.3節,[美]傑·雅克布(jay jacobs)鮑布·魯迪斯(bob rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
盡管我們認為資料分析應該十分有趣,但是由于它本身特性,卻從未如此。資料分析始終在一個更大的上下文内進行的,并且了解這個上下文是成功進行資料分析的關鍵,忽視了資料分析的上下文就如同賽跑的時候不關注終點線一樣盲目,我們要清晰地認識從資料中學到的東西。總之,每一個良好的資料分析項目一開始就設定一個目标,并建立一個或多個研究問題(research question)。也許你已經遇到一個可視化或分析研究,并且疑惑“好了,可是要做什麼呢?”,産生這樣的反應有可能就是因為在分析中缺乏一個預設的研究問題。記住,資料分析的目的是從實際環境中來學習,學習的過程中資料可有可無(會取得不同程度的成功)。建立和跟進一個好的研究問題不僅僅是好的資料分析的組成部分,也是好的學習過程的一個組成部分。如果沒有一個良好的研究問題來引導資料分析的過程,就可能把時間和精力浪費在從資料中尋求一些容易的答案,或者更糟糕的是,你可能隻是在尋找一個無人關心的問題的答案。
例如,圖1-4顯示了某組織給定月份中垃圾郵件的數量和類别的對應關系。多虧一個郵件過濾系統生成的日志,才使收集和展示這些資訊得以完成,但是該組織對于這些資料回答的問題(以及後續應采取的行動)卻不太關心。很難想象有人看着這圖表,并想“讓我們來看看為什麼12月份的旅遊主題的垃圾郵件會上升”。如圖1-4所示是失敗地選擇了或者略過了研究問題導緻的,為了資料分析而資料分析,未能有助于提供給人們任何有意義的環境資訊。
圍繞垃圾郵件較好地一個研究問題可能是“在未被郵件過濾系統阻攔的垃圾郵件上,員工花費了多少時間?”僅計算有多少垃圾郵件被阻攔是沒有價值的,因為它沒有任何語境意義(沒人可以估算1000與5000封垃圾郵件之間的效率差異),我們想知道垃圾郵件對員工生産率産生的影響。雖然生産率是難以直接度量的,我們可以轉變一下,并且認為當員工在閱讀和删除垃圾郵件的時候是沒有工作效率的。是以,我們真正要度量的是員工在處理未過濾的垃圾郵件時所花的時間。
現在,研究問題被設計成這樣:我們不能指望垃圾郵件過濾系統的日志來回答這個垃圾郵件相關的問題,并且我們真的不在乎上千的郵件被阻攔在外圍或者什麼樣的郵件被阻攔。有研究問題在手,我們知道要收集度量員工的處理時間,或許可以看看郵件用戶端在使用者标記垃圾郵件時産生的事件日志,或許在選取部分使用者做為樣本時進行一個簡單的調查,記錄下他們在某段時間内收到的垃圾郵件數量以及花費在這些郵件上的時間。無論什麼方法,這項分析工作的背景以及目的是根據研究問題來制定的,而不是源于我們可擷取的資料。
