天天看點

搞定大資料:AI和機器學習在資料處理與保護上的應用

作為咨詢師和顧問,有關各自資料、資訊和網絡安全事務時,重複“規模”問題挺有難度。不幸的是,上市公司的“外行”總監和管理人員,以及政府高管,傾向于将“規模”(當它屬于資料保護的時候)看做不好的東西,甚至是令人恐怖的事物。

原因部分在于,幾乎沒有什麼實用的方法,可以向這些位置上的人解釋:某組織的安全營運中心是有可能每天收到百萬個“事件”,以及,同時處理和調查這些事件的固有潛在危害,以及,适度保證沒有任何一起事件能夠溜過安全人員的檢測。

大資料分析作為商業工具是很妙的一招,因為我們可以将這些數字轉換成“商業利益”。但大資料也是網絡安全的需要(比如,使用網絡流量、資料、傳感器和其他回報,幫助确定網絡正常模式和異常現象),問題在于網絡安全資料不太容易被轉換成我們能輕易概念化的東西。

那麼,我們産生多少大資料呢?我們又該怎樣響應這些資料?有幾個重要的基本問題必須得到很好的了解,否則更難的問題——我們怎樣保護資料?就得不到解答了。

一、我們産生多少資料?

先從一個基本的概念開始:時至今日,資料意味着所有東西,無論是個人的,還是工作上的。我們生活中的方方面面,都已經轉換成了這些“0”和“1”的組合。我們如今對資料的依賴是前所未有的,而且肯定還會越來越重,尤其是随着iot的爆炸式發展。而我們産生的資料——無論好資料、壞資料、垃圾資料,也将持續增長(以驚人的速度),不斷吞噬全球網絡上的空間(意味着如果你能夠控制小小一部分這些資料流,就能發動邪惡的ddos攻擊)。

那麼,到底有多少資料以近光速遊蕩在網絡中?2016年6月思科的一份白皮書揭示:全球ip流量已進入“澤位元組(zb:2^70位元組)時代”。很好,但zb是個什麼鬼?(下文會有解釋)

二、回到基本規律

為解答該問題,我們需要從一些基本規律開始,首先就是:人類是有認知限制的。在試圖了解超級大或超級小的數字上,這種限制就特别明顯了。我們可以使用計數符号來表示大數字,比如 1 zb(澤位元組)就是 1 x 10^21 位元組。但是,這個計數法對你有任何意義嗎?

把100萬表示成 1 x 10^6 可能對你還有點意義,但那是因為我們對“100萬”的實際意義有着更好的了解。可以用美元來概念化“100萬”以建立一個參考點:你的年薪是 $50,000,工作20年,隻存不花,那就能攢下100萬美元了。看下表,可以給你的年薪來個“增幅”:

哪種表示法看起來更爽?$1 x 10^9 還是 $1,000,000,000?好吧,其實都一樣的數額,但後面的一串“0”顯然看起來舒服多了。而且,更重要的是,看着後一種表示法中的一串“0”,不僅可以幫助人類了解該數字,還能更好地了解這數字代表的意義。為什麼呢?因為我們用單詞代表數值,而這些數值必須被轉換成可感覺的某些東西,我們才能在日常生活和網絡空間中加以使用,因為規模、符号和認知的限制,該問題變得更難了。

三、概念化zb

我們知道十億(10^9)是什麼,但我們管10^21叫什麼?1,000的7次幂?現在覺得有個稱呼好點兒了麼?未必!

想象一下我們可以捕捉的一瞬間,就2016年全球ip流量的一個快照吧——1澤位元組。我們能把這類比成什麼呢?

用下面的表格,我們用一些例子以類比的方式重寫了這些數字,概念化一下我們實際處理的東西。

注:本例中用 1.28 zb (有些數字四舍五入了),出于數學上的友善,完整寫出數字時就用十進制值而非二進制了。不用過分糾結細節,至于技術宅,記得:更多的人說話方式是“非技術”的。讓你的生活,以及他們的生活,更容易些吧,術語行話和煩人的細節什麼的,能避免就避免。

嘗試在腦海中具象化下面的數字:

*注:1 萬億米相當于1,000,000,000公裡

如果地球到土星的距離對比很難概念化,不妨這麼想:花8,000輩子一刻不停用腳走就走到了。如果這都還是難以想象,那就這樣:128 gb 之于 1.28 zb,相當于 20 美金的一張綠票票之于整個美國聯邦債務——20萬億美元。于是,假設聯邦債務以全球ip流量增長速率增加,到2020年美國總統大選之時,我們要讨論的就是46萬億的債務數字了。

四、概念化網絡安全警報過程

那麼,既然我們現在對資料産生和流量問題的規模有了更好的了解,我們就要考慮一下怎麼管理了。

毫不意外的,被問到最大的安全事件響應挑戰時,被調查的網絡安全從業者中,36%的人稱,“跟上安全警報的規模。”用上面20萬億美元來做類比,可以說,安全人員的任務就是每天從550億美元中篩選,找出其中多少是合法的,有多少被盜了,有多少是被洗的,有多少是假鈔。

fbi局長詹姆斯·科米在2014年 60 minutes 的采訪中對該問題給出了一個非常有用的描述(談及中國網絡攻擊時說的):

實際上,他們沒那麼強。我把他們比作喝醉的盜賊。他們一路踢開大門,撞倒花瓶,再順走你家電視機。他們僅僅是多勞多得而已。他們的政策似乎是:我們就是時時刻刻無處不在。而他們無法阻擋我們。

關鍵句是“時時刻刻無處不在”,因為這就是現狀。同一份調查中,42%的受訪者稱自家公司忽略掉了相當大一部分的安全警報,因為他們完全跟不上警報的規模。當然,被警報淹沒也存在無心之失的風險:“狼來了”太多次的後遺症。

但或許更令人擔憂的數字是:34%的人稱,1/4到一半的警報都被無視了,20%稱一半到3/4的警報被無視,11%稱超過3/4的安全警報被無視!額滴娘喂,這不就是無數大門被踢開,然後放任不管麼。

再回到20萬億美元的對比,也就是每天要從550億美鈔中篩選的類比中。如果我們使用上述“忽略”數字,翻譯過來就是:警報告訴我們有些不對勁的事情在發生,但我們太疲于應付了,我們不想撥冗檢視價值150億的日産警報。這可真是很多很多錢啊。

很不幸,該問題由來已久。警報忽略似乎與警報本身一樣常見,而且如《思科2017年度網絡安全報告》中揭示的:不到一半的合法警報切實觸發了某種形式的修正,而僅不到1%的嚴重/關鍵警報被予以調查。2014年,企業每天處理10,000個警報;2016年,政府部門每天處理50,000個警報;誰知道2017年底随着iot爆炸式發展我們每天要處理多少警報呢。

不幸的是,盡管有良好建議,比如設定目标、擷取正确的資訊、鞏固整合等等,我們依然疲于奔命,因為我們還是沒解決“規模”問題。哦,還有,我們是不是還沒提到,有時候網絡安全分析師每天隻能搞定10個調查?這就是ai和機器學習可以大展拳腳的地方了(也是為什麼專注于網絡安全問題的ai初創公司,是最好利用我們目前越來越脆弱的狀況的原因了)

五、到底意味着什麼?

這意味着,我們還有很多工作要做,意味着如果沒有ai和機器學習幫我們解決網絡安全挑戰——感覺上是兩碼事而實際上就一碼事的東西(提示:網絡安全+資訊安全=資料安全),我們就一條道走到黑了。隻要有人能指令并控制僅僅1%的全球ip網絡流量,其後果都是災難性的。

這想法聽起來挺難以置信的,但很可能就真是這樣,尤其是在想到iot裝置有多不安全(你的洗碗機有密碼嗎?),以及向移動裝置的遷移分分鐘都不停腳的時候。這意味着隻會有越來越多的人連接配接本就不安全的裝置wifi網絡。

這些困難不會變得更容易解決,特别是當我們持續産生資料,而黑客宣稱可以在12小時内突破大多數目标的時候。是以,我們需要盡可能多的工具(比如ai/lm),但我們也需要清醒且坦誠地面對手頭處理的對象。網絡安全是個技術問題,也是人的問題,但我們人類自身卻一直都了解錯了這一點。對人類認知限制的認識,是領先對手和惡徒的重要一步。

本文轉自d1net(轉載)

繼續閱讀