機器學習自主解決安全威脅離我們還有多遠？

曾經聽見不止一次這樣的問題：

“機器學習會替代基于人工經驗規則的安全解決方案麼？”

把這個問題放在去年來看，我們已經得到了非常多的讨論甚至是一些已經實際應用的解決方案，對于人工智能在安全以及其它各種對資料進行價值挖掘的場景下，大家都表現出了極高的興趣與激情。

1.你希望機器學習幫助你解決什麼問題？

這個問題實際上代表了我們對機器學習的期待，而絕大多數人包括筆者在内的回答可能都比較類似：

我希望機器學習算法能夠幫助我更有效的挖掘資料内在價值，發現潛在未知問題，并且極大的節省人工成本；實際上有更偏激的想法是想把資料丢給模型算法，然後期待它可以告訴我所有我想知道的事情。

2.機器學習應用在安全場景下的擔憂

筆者最初發現機器學習算法的應用并不是在安全領域，而是在電商精準營銷的場景下，通過使用者的一系列搜尋、收藏、購買行為積累，預測一個新的使用者可能更傾向于買什麼商品進而進行推薦。

這與安全場景是有一定類似性的，同樣也是通過使用者的通路、登陸、購買行為對威脅進行預測，評估一個使用者是否是壞人。但這兩個場景又具有一個本質的不同：

在精準營銷場景下，你預測錯誤推薦了一個使用者他不喜歡的商品，使用者并不會為此大發雷霆；但是如果你的算法錯誤的預測了一個壞人的身份，使用者又是以而被鎖定賬号、封禁或被限制，影響的就不僅僅是使用者的感受，同時也降低了信任甚至對其他使用者産生負面影響，我們所承擔的代價是不同的。

3.機器學習在當下更多的是一個驅動者

在有限條件的應用場景下，機器學習無論從效率還是效果上都有着驚人的表現，從下圍棋到設計電路闆，我們無法了解也無法解釋為什麼電腦能夠做的又好又快。

安全場景下為什麼去封禁一個ip或者取消一個訂單是需要給業務部門合理的解釋的，一個黑盒的邏輯最大的弊端就在于對于給出的結果合理性無法從常識角度來給出解釋，你隻能預設接受。

是以，我們看到應用了各類機器學習算法的安全解決方案往往會回避最終決策的步驟，而是交給人工進行再次确認或隻做參考。由此筆者認為，現階段機器學習更多的是一個驅動安全營運的角色。

4.資料品質決定了機器學習算法應用于安全場景的價值天花闆，而安全營運則是決定了轉化率

資料源就是機器學習算法的黃油和面包，沒有高品質的資料喂進去很難指望有高價值的産出，而目前接入資料的思路主要有兩種：

一種是從企業現有資料中去做清洗和适配，這種方式對于內建雙方都是一個非常痛苦的過程；

另外一種是摒棄企業現有存量資料，通過js、sdk等方式從底層通用環節重新搭建業務資料模型，這種方式會導緻曆史資料無法有效的應用。

從賣方來講，希望後一種模式，因為降低了方案實施難度，複制性較強，産品形态簡單。而從買方來講，條件允許的情況下都希望前一種模式，因為可預期的産出價值最高。

兩種想法沖撞的結果下，最終會尋求到一個平衡點，但這裡存在一個特例，也是最近兩年比較熱的威脅情報＋機器學習概念，差別于内部資料挖掘場景，威脅情報的資料大多都來自外部，服務提供方一次性接入資料便可以快速複制給多個客戶，這無疑規避了一個客戶一個處理方式的弊端。

但筆者認為，威脅情報如今可以快速聚集起大量資料的原因在于資料持有者變現意願增強同時監管存在空白，之後還是存在很大的政策風險的。

而我們進一步來看機器學習應用所驅動的安全營運，“一人安全部”甚至沒有安全營運是目前的普遍現狀，在機器學習引入過之後發現依然需要大量的調優、協調、結果落地評估工作需要人工來完成，這種尴尬局面我認為在熱度過後，今年會有更多的冷靜思考，認識到：既然現在沒有可以絕對替代人工完成風險決策的方案出現，那麼安全營運這個角色就是不可或缺的，至少是在目前的過渡階段。

5.機器學習的安全前景

經濟增長往往都來自于生産效率的大幅提升，是以無論是在安全或是其他，機器學習的應用都已經表現出了可承諾的前景。

在這個過程中，低層次資料分析的人工角色會逐漸的被淘汰，而可有效連結資料與價值的高端人才将持續保持其競争力，至少我們需要知道現階段的機器學習算法并不能讓我們放心的坐到一邊喝咖啡，它自動解決所有問題，依然需要我們不斷的給予正确的關注和培養，不是嗎？

原文釋出時間為：2017-03-16

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

機器學習自主解決安全威脅離我們還有多遠？

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希