搞定大資料：AI和機器學習在資料處理與保護上的應用

作為咨詢師和顧問，有關各自資料、資訊和網絡安全事務時，重複“規模”問題挺有難度。不幸的是，上市公司的“外行”總監和管理人員，以及政府高管，傾向于将“規模”(當它屬于資料保護的時候)看做不好的東西，甚至是令人恐怖的事物。

原因部分在于，幾乎沒有什麼實用的方法，可以向這些位置上的人解釋：某組織的安全營運中心是有可能每天收到百萬個“事件”，以及，同時處理和調查這些事件的固有潛在危害，以及，适度保證沒有任何一起事件能夠溜過安全人員的檢測。

大資料分析作為商業工具是很妙的一招，因為我們可以将這些數字轉換成“商業利益”。但大資料也是網絡安全的需要(比如，使用網絡流量、資料、傳感器和其他回報，幫助确定網絡正常模式和異常現象)，問題在于網絡安全資料不太容易被轉換成我們能輕易概念化的東西。

那麼，我們産生多少大資料呢？我們又該怎樣響應這些資料？有幾個重要的基本問題必須得到很好的了解，否則更難的問題——我們怎樣保護資料？就得不到解答了。

一、我們産生多少資料？

先從一個基本的概念開始：時至今日，資料意味着所有東西，無論是個人的，還是工作上的。我們生活中的方方面面，都已經轉換成了這些“0”和“1”的組合。我們如今對資料的依賴是前所未有的，而且肯定還會越來越重，尤其是随着iot的爆炸式發展。而我們産生的資料——無論好資料、壞資料、垃圾資料，也将持續增長(以驚人的速度)，不斷吞噬全球網絡上的空間(意味着如果你能夠控制小小一部分這些資料流，就能發動邪惡的ddos攻擊)。

那麼，到底有多少資料以近光速遊蕩在網絡中？2016年6月思科的一份白皮書揭示：全球ip流量已進入“澤位元組(zb：2^70位元組)時代”。很好，但zb是個什麼鬼？（下文會有解釋）

二、回到基本規律

為解答該問題，我們需要從一些基本規律開始，首先就是：人類是有認知限制的。在試圖了解超級大或超級小的數字上，這種限制就特别明顯了。我們可以使用計數符号來表示大數字，比如 1 zb(澤位元組)就是 1 x 10^21 位元組。但是，這個計數法對你有任何意義嗎？

把100萬表示成 1 x 10^6 可能對你還有點意義，但那是因為我們對“100萬”的實際意義有着更好的了解。可以用美元來概念化“100萬”以建立一個參考點：你的年薪是 $50,000，工作20年，隻存不花，那就能攢下100萬美元了。看下表，可以給你的年薪來個“增幅”：

哪種表示法看起來更爽？$1 x 10^9 還是 $1,000,000,000？好吧，其實都一樣的數額，但後面的一串“0”顯然看起來舒服多了。而且，更重要的是，看着後一種表示法中的一串“0”，不僅可以幫助人類了解該數字，還能更好地了解這數字代表的意義。為什麼呢？因為我們用單詞代表數值，而這些數值必須被轉換成可感覺的某些東西，我們才能在日常生活和網絡空間中加以使用，因為規模、符号和認知的限制，該問題變得更難了。

三、概念化zb

我們知道十億(10^9)是什麼，但我們管10^21叫什麼？1,000的7次幂？現在覺得有個稱呼好點兒了麼？未必！

想象一下我們可以捕捉的一瞬間，就2016年全球ip流量的一個快照吧——1澤位元組。我們能把這類比成什麼呢？

用下面的表格，我們用一些例子以類比的方式重寫了這些數字，概念化一下我們實際處理的東西。

注：本例中用 1.28 zb (有些數字四舍五入了)，出于數學上的友善，完整寫出數字時就用十進制值而非二進制了。不用過分糾結細節，至于技術宅，記得：更多的人說話方式是“非技術”的。讓你的生活，以及他們的生活，更容易些吧，術語行話和煩人的細節什麼的，能避免就避免。

嘗試在腦海中具象化下面的數字：

*注：1 萬億米相當于1,000,000,000公裡

如果地球到土星的距離對比很難概念化，不妨這麼想：花8,000輩子一刻不停用腳走就走到了。如果這都還是難以想象，那就這樣：128 gb 之于 1.28 zb，相當于 20 美金的一張綠票票之于整個美國聯邦債務——20萬億美元。于是，假設聯邦債務以全球ip流量增長速率增加，到2020年美國總統大選之時，我們要讨論的就是46萬億的債務數字了。

四、概念化網絡安全警報過程

那麼，既然我們現在對資料産生和流量問題的規模有了更好的了解，我們就要考慮一下怎麼管理了。

毫不意外的，被問到最大的安全事件響應挑戰時，被調查的網絡安全從業者中，36%的人稱，“跟上安全警報的規模。”用上面20萬億美元來做類比，可以說，安全人員的任務就是每天從550億美元中篩選，找出其中多少是合法的，有多少被盜了，有多少是被洗的，有多少是假鈔。

fbi局長詹姆斯·科米在2014年 60 minutes 的采訪中對該問題給出了一個非常有用的描述(談及中國網絡攻擊時說的)：

實際上，他們沒那麼強。我把他們比作喝醉的盜賊。他們一路踢開大門，撞倒花瓶，再順走你家電視機。他們僅僅是多勞多得而已。他們的政策似乎是：我們就是時時刻刻無處不在。而他們無法阻擋我們。

關鍵句是“時時刻刻無處不在”，因為這就是現狀。同一份調查中，42%的受訪者稱自家公司忽略掉了相當大一部分的安全警報，因為他們完全跟不上警報的規模。當然，被警報淹沒也存在無心之失的風險：“狼來了”太多次的後遺症。

但或許更令人擔憂的數字是：34%的人稱，1/4到一半的警報都被無視了，20%稱一半到3/4的警報被無視，11%稱超過3/4的安全警報被無視！額滴娘喂，這不就是無數大門被踢開，然後放任不管麼。

再回到20萬億美元的對比，也就是每天要從550億美鈔中篩選的類比中。如果我們使用上述“忽略”數字，翻譯過來就是：警報告訴我們有些不對勁的事情在發生，但我們太疲于應付了，我們不想撥冗檢視價值150億的日産警報。這可真是很多很多錢啊。

很不幸，該問題由來已久。警報忽略似乎與警報本身一樣常見，而且如《思科2017年度網絡安全報告》中揭示的：不到一半的合法警報切實觸發了某種形式的修正，而僅不到1%的嚴重/關鍵警報被予以調查。2014年，企業每天處理10,000個警報；2016年，政府部門每天處理50,000個警報；誰知道2017年底随着iot爆炸式發展我們每天要處理多少警報呢。

不幸的是，盡管有良好建議，比如設定目标、擷取正确的資訊、鞏固整合等等，我們依然疲于奔命，因為我們還是沒解決“規模”問題。哦，還有，我們是不是還沒提到，有時候網絡安全分析師每天隻能搞定10個調查？這就是ai和機器學習可以大展拳腳的地方了(也是為什麼專注于網絡安全問題的ai初創公司，是最好利用我們目前越來越脆弱的狀況的原因了)

五、到底意味着什麼？

這意味着，我們還有很多工作要做，意味着如果沒有ai和機器學習幫我們解決網絡安全挑戰——感覺上是兩碼事而實際上就一碼事的東西(提示：網絡安全+資訊安全=資料安全)，我們就一條道走到黑了。隻要有人能指令并控制僅僅1%的全球ip網絡流量，其後果都是災難性的。

這想法聽起來挺難以置信的，但很可能就真是這樣，尤其是在想到iot裝置有多不安全(你的洗碗機有密碼嗎？)，以及向移動裝置的遷移分分鐘都不停腳的時候。這意味着隻會有越來越多的人連接配接本就不安全的裝置wifi網絡。

這些困難不會變得更容易解決，特别是當我們持續産生資料，而黑客宣稱可以在12小時内突破大多數目标的時候。是以，我們需要盡可能多的工具(比如ai/lm)，但我們也需要清醒且坦誠地面對手頭處理的對象。網絡安全是個技術問題，也是人的問題，但我們人類自身卻一直都了解錯了這一點。對人類認知限制的認識，是領先對手和惡徒的重要一步。

本文轉自d1net（轉載）

搞定大資料：AI和機器學習在資料處理與保護上的應用

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

Bugku-WEB-web33

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark