天天看點

IEEE: 安全領域中的大資料分析

【注:該文原載于IEEE的Security & Privacy上,并被國人翻譯發表在InfoQ上】

作者Alvaro A. Cárdenas, Pratyusa K. Manadhata, Sreeranga P. Rajan

譯者        吳海星                釋出于        2014年3月11日      

企業定期收集幾TB與安全相關的資料(比如網絡事件、軟體應用程式事件,以及人員活動事件), 用來作合規性和事後驗證分析。據估計,不同規模的大型企業每天發生的事件在上百億到上千億之間。随着企業啟用的事件記錄源越來越多,雇用的員工越來越多,部署的裝置越來越多,運作的軟體越來越多,這些數值還會繼續增長。不幸的是,這種資料量和多樣性會迅速變成駱駝背上的稻草。現有分析技術無法應對大規模資料,通常都會産生很多誤報,是以功效被削弱了。随着企業向雲架構遷移,并且收集的資料越來越多,這個問題進一步惡化了。

大資料分析—資訊的大規模分析和處理—在幾個領域用的熱火朝天,并且最近這些年,因其承諾以前所未有的規模高效地分析和關聯與安全相關的資料,也引起了安全社群的興趣。然而,對安全而言,傳統資料分析和大資料分析之間的差異并不是那麼直覺。畢竟資訊安全社群十多年來一直在利用網絡流量、系統日志和其它資訊源的分析甄别威脅,檢測惡意活動,而這些傳統方式跟大資料有何不同還不清楚。

為了解決這個問題,還有其它問題,雲安全聯盟(CSA)在2012年成立了大資料工作組。這個工作組由來自業内的和院校的志願者組成,共同确定這一領域内的原則、綱領及所面臨的挑戰。它最新的報告, “安全智能中的大資料分析”,重點探讨了大資料在安全領域中的作用。在這份報告中,詳細闡述了利用大量結構化和非結構化資料的新工具的介入及廣泛使用如何改變了安全分析領域。它還羅列了一些跟傳統分析的基本差異,并指出了一些可能的研究方向。我們對這份報告中的一些關鍵點做了彙總。

大資料分析的進展

資料驅動的資訊安全資料可以支撐銀行的欺詐檢測和基于異常的入侵監測系統(IDSs)。盡管為了驗證和入侵檢測,對日志、網絡流和系統事件進行分析已經是資訊安全社群面對了十多年的問題了,然而出于幾個原因,傳統技術有時候對長期的、大規模的分析支援力度不夠:首先是以前保留大量的資料在經濟上不可行。是以在傳統的基礎設施中,大多數事件日志和其他記錄的計算機活動在一個固定的保留期(比如60天)後就被删除了。其次,在那種不完整,還很嘈雜的大型、非結構化資料集上執行分析和複雜查詢的效率很低下。比如說,幾個流行的資訊安全和事件管理(SIEM)工具都不支援對非結構化資料的分析和管理,被嚴格限定在預定義的資料方案上。然而,因為大資料應用程式可以有效地清理、準備、查詢那些異構的、不完整的、嘈雜格式的資料,是以它們也開始成為資訊安全管理軟體的一部分。最後,大型資料倉庫的管理傳統上都很昂貴,并且它們的部署通常需要很強的業務案例。而Hadoop 架構和其它大資料工具現在将大規模的、可靠的叢集部署商品化了,是以在資料處理和分析上出現了新的機會。

欺詐檢測是大資料分析中最顯眼的應用:信用卡和電話公司開展欺詐檢測的曆史已經有幾十年了;然而從經濟角度來看,必須用定制的基礎設定來挖掘大資料做欺詐檢測并不适于大規模采用。大資料技術的一個主要影響是它們讓很多行業的企業能夠承擔建構基礎設施來做安全監測的開支。

特别是新的大資料技術,比如Hadoop生态圈 (包括 Pig、Hive、 Mahout 和RHadoop)、流挖掘、複雜事件處理和NoSQL資料庫—能夠以前所未有的規模和速度分析大規模的異構資料集。這些技術通過促進安全資訊的存儲、維護和分析改變着安全分析。比如說,WINE平台1和Bot-Cloud2 允許使用MapReduce高效地處理資料做安全分析。通過觀察過去十年安全工具的反應發生了什麼樣的變化,我們可以找出其中的一些趨勢。當IDS探測器的市場增長時,網絡監測探測器和日志工具被部署到了企業網絡中;然而,管理這些分散的資料源發過來的警告變成了一個很有挑戰性的任務。結果安全廠商開始開發SIEMs ,緻力于把警告資訊和其它網絡統計資料整合并關聯起來,通過一個儀表闆把所有資訊呈現給安全分析人員。現在,大資料工具将更加分散資料源,時間範圍更長的資料關聯、整合和歸納整理起來交給安全分析人員,改進了安全分析人員可擷取的資訊。

Zions  Bancorporation最近給出的一個案例研究可以讓我們見到大資料工具的具體收益。它的研究發現,它所處理的資料品質和分析的事件數量比傳統的SIEM(在一個月的資料負載中搜尋要花20分鐘到一個小時的時間)多出很多。在它用Hive運作查詢的新Hadoop 系統中,相同的結果大概在一分鐘左右就出來了。3 采用驅動這一實作的安全資料倉庫,使用者不僅可以從防火牆和安全裝置中挖掘有意義的安全資訊,還能從網站流、業務流程和其他日常事務中挖掘。将非結構化的資料和多種不同的資料集納入一個分析架構中是大資料的特性之一。大資料工具還特别适合用作進階持續性威脅(APT)的檢測和驗證的基礎工具。4,5 APT的運作模式又低又慢(即執行時不引人注意,而時間又很長);是以,它們可能會持續很長時間,而受害者卻對入侵毫無所知。為了檢測這些攻擊,我們需要收集并關聯大量分散的資料(包括來自内部資料源的資料和外部共享的智能資料),并執行長期的曆史相關性風險,以便納入網絡曆史上發生過的攻擊的後驗資訊。

挑戰

盡管在處理安全問題上,大資料分析應用程式的希望很顯著,但我們必須提出幾項挑戰,進而去認識到它真正的潛力。在行業中分享資料,隐私特别重要,并且要避免違背資料重用的隐私原則法規,也就是說隻能将資料用于收集它的目的。直到最近,隐私在很大程度上還取決于在抽取、分析和關聯潛在敏感資料集能力上的技術局限性上。然而,大資料分析的發展為我們提供了抽取和關聯這種資料的工具,讓破壞隐私更容易了。是以,我們必須在了解隐私法規及推薦實踐的情況下開發大資料應用程式。盡管在某些存在隐私法規的領域—比如說,在美國,美國聯邦通信委員跟電信公司的合作,健康保險隐私及責任法案指出的醫療資料,幾個州的公用事業委員會限制智能電網資料的使用,以及聯邦貿易委員會正在制定Web活動的指導方針—所有這些活動都擴大了系統的覆寫範圍,并且在很多情況下都會有不同的解讀。即便有隐私法規在,我們也要懂得,那樣大規模的資料收集和存儲會吸引社會各界的關注,包括産業界(将我們的資訊用在營銷和廣告上),政府(會強調這些資料對國家安全或法律執行很有必要)和罪犯(喜歡盜取我們的身份)。是以,作為大資料應用程式的架構師和設計者,我們要積極主動地創造出保障措施,防止對這些大資料庫存的濫用。

另外一個挑戰是資料出處的問題。因為大資料讓我們可以擴充用于處理的資料源,是以很難判斷出哪個資料源符合我們的分析算法所要求的可信賴度,以便能生産出準确的結果。是以,我們需要反思工具中所用資料的真實性和完整性。我們可以研究源自對抗性機器學習和穩健統計的思路,找出并減輕惡意插入資料的影響。

這個特别的CSA報告聚焦于大資料分析在安全方面的應用,但另一方面是用安全技術保護大資料。随着大資料工具不斷被部署到企業系統中,我們不僅要利用傳統的安全機制(比如在Hadoop内部內建傳輸層安全協定),還要引入新工具,比如Apache的Accumulo,來處理大資料管理中獨有的安全問題。

最後,這個報告中還有一個沒有覆寫到,但還需要進一步開發的領域,即人機互動,特别是可視化分析如何幫助安全分析人員解讀查詢結果。可視化分析是通過互動式可視化界面促進推理分析能力的科學。跟為了高效計算和存儲而開發的技術機制相比,大資料中的人機互動受到的關注比較少,但它也是大資料分析達成“承諾”必不可少的基礎工具,因為它的目标是通過最有效的展示方式将資訊傳達給人類。大資料正在改變着用于網絡監測、SIEM和驗證的安全技術景觀。然而,在進攻和防守永遠不會停歇的軍備競賽中,大資料不是萬能的,安全研究人員必須不斷探索新的方式來遏制老練的攻擊者。大資料還會讓維持控制個人資訊的洩漏變成持續不斷的挑戰。是以,我們需要付出更多的努力,用保護隐私的價值觀培育新一代的計算機科學家和工程師,并跟他們一起開發出設計大資料系統的工具,進而讓大資料系統能遵循普遍認可的隐私準則。

參考資料

  1. T. Dumitras and D. Shou, “Toward a Standard Benchmark for Computer Security Research: The Worldwide Intelligence Network Environment (WINE),” Proc. EuroSys BADGERS Workshop, ACM, 2011, pp. 89–96.
  2. J. Franois et al., “BotCloud: Detecting Botnets Using MapReduce,” Proc. Workshop Information Forensics and Security, IEEE, 2011, pp. 1–6.
  3. E. Chickowski, “A Case Study in Security Big Data Analysis,” Dark Reading, 9 Mar. 2012.
  4. P. Giura and W. Wang, “Using Large Scale Distributed Computing to Unveil Advanced Persistent Threats,” Science J., vol. 1, no. 3, 2012, pp. 93–105.
  5. T.-F. Yen et al., “Beehive: Large-Scale Log Analysis for Detecting Suspicious Activity in Enterprise Networks,” to be published in Proc. Ann. Computer Security Applications Conference (ACSAC 13), ACM, Dec. 2013.

【參考博文】

繼續閱讀