本節書摘來華章計算機《資料驅動安全:資料安全分析、可視化和儀表盤》一書中的第1章 ,第1.31節,[美]傑·雅克布(jay jacobs)鮑布·魯迪斯(bob rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
建立一個好的研究問題是相對簡單的,但是它需要一點實踐經驗、關鍵的想法以及一些原則。大多數研究問題将要作為決策或者行動(亦或不行動)的判斷依據,了解研究問題的結果的上下文含義有助于确定什麼是需要收集的。我們回到之前垃圾郵件的例子,也許你知道浪費的時間有一定量的容忍額度,那麼你就不需要知道有多少時間被浪費在垃圾郵件的處理上,而僅僅是了解浪費的時間量是多于或少于這個容忍度。用這些資訊來規劃整個資料分析可以改變資料的擷取,或者簡化資料存儲以及分析。
開始資料分析的時候,往往分析者心中已經有些分析主題了。可能你在記錄某項技術變革帶來的可能的益處,也許你在試着保護一項特定的資産或者資料類型,也許隻是簡單地想提升資料在網段内的可見性。即便你僅僅有一個一般的方向感,你也可以提出一系列你想了解的問題或者東西來展開工作。一旦你擁有了好的研究問題的清單,你就可以将這些問題削減到一個或者少數幾個相關聯的問題。現在有趣的事情才剛開始,即将這些問題目标化。
看看下面這個簡單的例子。人力資源部門提議将公司的午餐菜單從公司咖啡廳移至網際網路(the internet)供員工查詢。雖然這可能引起各種各樣的有關控制、流程以及規程的問題,假設這項提議主要的安全決策隻是局限到允許企業使用者通過密碼通路,或購買更昂貴的雙因素認證機制。應通過頭腦風暴考慮這樣一個問題,“單因素認證意味着多大的安全風險?”,或者考慮“雙因素認證機制的效果如何?”。這類問題是很好的,并且适合形成研究問題的初始階段,但是卻不太适合正式的資料分析,可努力收集問題裡提到的“風險”和“效果”的相關證據。是以你必須将這些問題轉換得更具體、可度量,作為可支撐上下文中的決策或行動的一個論據。還可以調查有多少服務需要進行單因素或者雙因素認證,調查有多少服務已經遭受了攻擊以及哪些被攻擊成功等問題。也許你有機會接觸到一個蜜罐,并且可以研究和勾勒出一個基于網際網路的暴力破解嘗試的概要。還可以看看微軟的outlook web access的企業執行個體,并勾勒出針對該資産的認證攻擊的概要。這些都是很好的研究問題,很适合用資料分析來解答,能産生有助于決策的分析結果。