天天看點

《資料驅動安全:資料安全分析、可視化和儀表盤》一3.2 擷取資料

本節書摘來華章計算機《資料驅動安全:資料安全分析、可視化和儀表盤》一書中的第3章 ,第3.2節,[美]傑·雅克布(jay jacobs)鮑布·魯迪斯(bob rudis) 著 薛傑 王占一 張卓 胡開勇 蔣夢飏 趙爽 譯, 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

我們正在進入資訊安全的資料時代。目前的挑戰不是從哪裡獲得資料而是如何處理資料,資料集中資訊的種類将決定你的研究類型。

在進行探索性分析或者想先看一看資料集的時候,你可以通過浏覽器(或者使用wget和curl指令)将它下載下傳下來。alienvault資料庫的大小将近16mb,在較慢的網絡環境下可能要花費1到2分鐘的時間下載下傳。當你下載下傳了alienvault ip信譽資料庫并且驗證了第一部分的資料元素時,你會對這些資料的内容和格式産生一些想法,這些想法會在你閱讀和處理資料的過程中派上用場。在後續的代碼中,你可以使用一些簡單的linux/unix指令進行下載下傳:

《資料驅動安全:資料安全分析、可視化和儀表盤》一3.2 擷取資料

對于大多數項目,最好養成直接從你的分析腳本中擷取資料源的習慣。如果你仍然喜歡手動下載下傳檔案,應該在程式中增加一些注釋來記錄資料的來源以及目前分析資料的擷取時間。這些注釋能夠幫助你在之後更容易地重複這些分析。請相信我們,你一定會比你預期的更頻繁地重新閱讀你的代碼以及重新進行分析。

接下來的示例(程式清單3-2和程式清單3-3)展示了如何使用r和python兩種語言來擷取這些資料。如果你依照rstudio或者ipython,所有的代碼示例都假定位于項目結構的頂層的工作目錄(例如在第2章中建議的執行book/ch03目錄,可以手動生成或者用prep腳本來生成該目錄)。對于大多數情況,代碼塊是獨立的,但每個塊都期望在已經運作了rstudio或ipython的會話中執行這部分片段以及下一節中的片段。

程式清單3-2

《資料驅動安全:資料安全分析、可視化和儀表盤》一3.2 擷取資料

程式清單3-3

《資料驅動安全:資料安全分析、可視化和儀表盤》一3.2 擷取資料

r語言和python語言的代碼看起來非常相似并且遵循相同的基本結構:對url和檔案名盡可能使用變量,在重新下載下傳之前驗證這些資料檔案是否已經存在。這些都是很好的習慣,我們會在本書的其餘部分強調其他的良好習慣。

獲得了ip信譽資料,到了讀入并使用這些資料的時候了。