關于機器學習在網絡安全中的五大誤解

機器學習已經滲透到了人類活動的所有領域，它不僅在語音識别、手勢識别、手寫識别和圖像識别上起着關鍵的作用，這些領域如果沒有機器學習在現代醫學、銀行、生物資訊和存在任何品質控制的行業中都是一個災難。甚至機器沒有學習和生成的能力，連天氣預報都無法做出。但是此時我想澄清一些問題——關于機器學習在網絡安全領域的使用中存在的一些誤解。

誤解一網絡安全中的機器學習是新鮮玩意

由于某種原因，在網絡安全中的人工智能技術變成了過去流行的東西。如果你沒有長期關注過這個主題，你可能會認為這是新的東西。

一些場景：第一個機器學習算法，人工神經網絡在上個世紀50年代就被發明了。有趣的是，在當時人們都認為該算法将很快導緻“強”人工智能的出現。即，智能的思考能力、獨立思考并可以解決那些預設程式設計程式外任務的人工智能。可随後就是“弱”人工智能的時代，它可以解決一些創造性的任務，比如識别圖檔、預測天氣、玩象棋等。六十年後，我們會對一些基本事實有更多的了解，那時真正的人工智能也許已經出現了，而我們現在提起的人工智能其實更準确的說是機器學習。

當談到網絡安全領域時，機器學習也不是什麼新鮮事。這類算法在十年前左右就提出了，那時候新的惡意軟體數量每兩年翻一番。

但是簡單的自動化對病毒分析師來說是不夠的，它需要一個質的飛躍。這個飛躍出現在處理病毒家族樣本時，可以用機器學習來搜尋和已經判别完成的樣本相似的檔案。最終一個檔案是否是惡意的以前要由人來判斷，但是這個工作快速地轉移給了機器。換句話說，在網絡安全行業，機器學習沒什麼新奇的。

誤解二網絡安全中的機器學習簡單明了——一切都有現成的

在某些領域，機器學習有一些早就準備好的算法，這确實是事實。這些領域包括面部、情感識别或者從狗中區分貓。在這種情況下，通常是有一些人做了大量的思考、确定必要的辨別、選取适當的數學工具、設定必要的計算資源然後公布他們的研究結果。現在，每個做這些工作的人都可以利用這些算法。

這導緻了一個錯誤的印象，好像把惡意軟體檢出的算法也已經存在了。實際情況并非如此，我們在卡巴斯基實驗室花了超過十年的時間來開發這項技術，并申請了許多專利。我們持續進行研究、提出新的想法也與下一個誤解有關。

誤解三機器學習——做一次就夠了

惡意軟體檢測和人臉識别在概念上的差別，臉永遠是臉，在這方面永遠也不會有什麼改變。在機器學習被應用的大多數領域中，目的不随時間變化，但是在惡意軟體檢出這個範疇内，事情在不斷且快速地變化着。因為網絡罪犯往往是高動機的人，為了錢、間諜活動、恐怖主義等。他們的智力不受人工的局限，他們積極出擊、故意修改惡意程式好擺脫已有的成熟模型的檢測。

這就是為什麼這些模型需要不斷學習、不斷修正，甚至推倒從來。顯然，面對快速變化的惡意軟體，基于沒有反病毒資料庫模型的安全解決方案是毫無價值的。當必要的時候，網絡犯罪分子可以以創造性的思考來應對。

誤解四你可以讓安全軟體在用戶端進行學習

比方說，在處理用戶端檔案的時候，絕大多數檔案都是安全的，隻有少部分是惡意的。後者是會變異的，但是你設計的模型可以自己學會應對。

然而事情卻不是這樣的。因為通過用戶端的惡意樣本的平均數量要比反病毒實驗室收集到的惡意樣本數量小得多。用戶端會因為沒有收集到樣本進行學習而喪失應對能力。對病毒作者的“創造性”的檢測就一定會失敗，模型此時把惡意軟體識别為安全的檔案，将會學到“錯誤”的東西。

誤解五開發一個基于機器學習的模型就夠了

為什麼要使用基于不同技術的多層次保護？如果那個籃子是如此的聰明和先進，為什麼不把所有的雞蛋都放在同一個籃子裡？這樣一種算法就可以解決所有問題了。

問題是大多數同家族的惡意軟體都是由一個惡意程式修改而來的。例如 trojan-ransom.win32.shade 是一個擁有超過三萬個惡意樣本的家族。一個模型可以通過大量的樣本訓練，來獲得檢測未來威脅的能力（在一定限度内，見誤解三）。在這些情況下，機器學習的效果很好。

但是，通常的情況是一個家族隻包括了幾個樣本，甚至隻有一個樣本。也許是作者不想其心血的惡意程式由于惡意行為被檢出後陷入和安全軟體的長期鬥争。相反，他選擇去攻擊那些沒有安裝安全軟體或者沒有行為檢測的人（即那些曾把所有雞蛋都放在一個籃子裡的人）。

這些各式各樣的隻有一兩個樣本的“小家族”不能應用于“訓練-推廣”這個傳統的機器學習模式。在這種情況下，用久經考驗的哈希、掩碼可能會更好的檢出威脅。

另一個例子是有針對性的攻擊，這些攻擊的幕後黑手不打算制造越來越多的新樣本，一個受害者就隻用一個樣本，此時你可以肯定這個樣本不會被保護方案檢出（除非這是一個轉為此目的開發的平台，例如卡巴斯基的反針對攻擊平台），又一次是基于哈希的檢測勝出了。

結論

不同的工具要在不同的情況下使用，多層次的保護要比單層保護更有效，不要因為它們不“時髦”就忽略了那些有效的工具。

原文釋出時間為：2016-12-08

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

關于機器學習在網絡安全中的五大誤解

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Bugku-WEB-web33

hdu7108哈希