天天看點

機器學習正在安全領域挂起一陣小旋風,但這裡面有BUG

機器學習正在安全領域挂起一陣小旋風,但這裡面有BUG

<a href="https://s3-eu-central-1.amazonaws.com/centaur-wp/theengineer/prod/content/uploads/2016/08/26104721/cyber-security.jpg" target="_blank">s3-eu-central-1.amazonaws</a>

如今,安全領域是機器學習(machine learning)正在大力進軍的一個方向。

| 把機器學習應用到安全領域,老闆們躍躍欲試

如果你親自參加了 2016 rsa 大會,就會發現幾乎沒有哪家公司在說自家安全領域的産品時,不提及機器學習。這是為什麼呢?

可能對外行人來說,機器學習就像一種魔法,能解決所有的安全問題:你把一堆未辨別的資料統統塞進會機器學習的系統中,它就能分辨出連人類專家都分辨不出的資料規律,并且還可以學習新的行為指令和适應環境威脅。不僅如此,就連為規則加密也勞煩不到你,因為系統已經自動為你搞定這一切。

要真是像這樣的話,那機器學習可真就是今年的重頭戲了!但諷刺的是,每個人都興師動衆說要在這個領域搞出點名堂來,但真正了解什麼是機器學習,或明白機器學習到底能用來做什麼的人,卻是鳳毛麟角。可想而知,在這種大環境下機器學習大多是被濫用的,尤其在安全領域。

| 用機器學習有效解決安全問題,正确的方法是?

把機器學習應用到安全領域,大多會涉及到一種技術——異常檢測(anomaly detection),它可以識别哪些部分和預期模式或資料集不比對。但技術銷售方要注意,這種技術隻在某些條件下有效——不過顯然,他們還不知道自己已經犯下錯誤:他們會告訴你,分析過你公司的網絡流量後,就可以用機器學習 揪出暗藏在網絡中的黑客。但事實上,機器學習根本就做不到。這時候,你要立刻對這個銷售商保持一絲懷疑。

那到底什麼情況下才有效?答案是,隻有為低次元的問題也配備上高品質的辨別資料,這樣的機器學習才是有效的。但很不幸,企業在實施過程并沒有做到這一點。如果要檢測新型的攻擊方式,你得有很清晰并且經過辨別的攻擊案例。這就是說,如果沒有透徹了解正常的網絡行為,機器學習是不可能發現黑客的。再說,所有的黑客都很狡猾,他們一定會把自己僞裝的天衣無縫。

| 機器學習和異常檢測,用在哪裡價值最大?

機器學習和異常檢測真正有用的地方,在于它們能将人類行為分類。

事實證明,人類的預測能力非常強,他們也有能力建立非常精确的個體使用者行為模型,讓模型探測到異常情況。

其實,人們在這方面已小有成就,比如隐式認證( implicit authentication)。隐式認證采用生物特征識别技術,基于擊鍵力度、節奏和打字模式等技術對使用者身份進行認證。不管是改善使用者體驗還是增強安全性,這個技術的優勢都相當明顯。最起碼,它免除了使用者記憶密碼的負擔和輸入密碼的麻煩。由于隐式認證所需元素大多是低維的, 機器學習就隻需處理少量幾個參數,這也使得收集使用者的高品質辨別資料變得很友善。是以,即使有行為差異或信号幹擾, 機器學習還是能正确為計算機視覺進行圖形搭配。同理,機器學習也能通過識别出個體的獨特行為而進行身份驗證,這當然也不在話下。

不過,它是怎麼做到的呢?

其實,你走路、站立等所有動作,是由衆多因素共同決定的,比如生理狀況,年齡,性别,肌肉記憶等等。并且對個體來說,這些動作不會有太大改變。是以,不經意間,你口袋中的手機就通過内置傳感器精确捕捉到了這些資訊,并記錄下來。而想要通過運動行為來識别一個人, 4 秒的運動資訊就已足夠。另外,通過對比使用者的曆史和當下的定位記錄也可以進行身份識别。人們總是生活在各種各樣的習慣當中,通過觀察他們什麼時候從哪出發,就能預測被測者到底是不是使用者本人。

我們的手機和電腦上已有大量的傳感器,以後随着可穿戴裝置的普及和物聯網的發展,傳感器的數量更會暴增。使用者大量的行為資料和環境資料就這樣被收集起來,提供給機器學習,讓它為使用者建立個體模型,并找到各個因素之間的互相關系。

| 讓機器學習進行安全防護,你需要做哪些功課?

想進行安全防護,就必須讓你的系統提前知道都存在哪些威脅模型。

首先,也是最重要的事——收集資料。這些資料必須非常精确,才能用來訓練系統,起到抵抗威脅的作用。不過身份認證系統要真是遭到攻擊,你也不用過于擔心。因為行為變化還是比較好檢測的,系統很快就能識别出異常情況。比如,如果一個裝置不小心被偷,那麼這個裝置被偷之後所記錄的運動狀态,地理位置和用法就會和之前的記錄有明顯不同。不過,系統是接受這種可能存在的異常情況的,這時候使用者就需要在系統上以另外的方式确認身份,調整系統,以使假陽性最小化。而一旦我們在不同裝置上連接配接起 4 個因素,那麼隐式認證的假陽性就會低于 0.001% 。

這個世界上并沒有哪一種機器學習真的神奇到能解決所有的安全問題。設計者想用機器學習建立一個有用的安全防衛産品,就需要對底層系統有深刻了解,并且承認很多問題并不适合用機器學習來解決。不過不用擔心,那些處在浪潮之巅的科技公司會将這些問題一步步消滅掉。

機器學習正在安全領域醞釀着一股勢不可擋的市場狂潮。

延伸閱讀:

<a href="http://www.leiphone.com/news/201609/kqetjirx2qgulfow.html">微軟安全測試新玩法:用 ai 問答發掘漏洞</a>

<a href="http://www.leiphone.com/news/201609/j61tzoearji4ixeq.html">human-like learning在對話機器人中的魔性運用</a>

<a href="http://www.leiphone.com/news/201609/dznlba4w2oenpb92.html">“機器學習 + 量子力學” ,助力探索新材料</a>

本文作者:夏睿

繼續閱讀