天天看點

基于大資料分析的安全管理平台技術研究及應用【摘錄】

【引言】這篇文章原載于内刊,現釋出于此。内容有所删減。

基于大資料分析的安全管理平台技術研究及應用

Research and Application of Big Data Analysis Based Security Management Platform

Last Modified By yepeng @ 2014-1-14

【内容摘要】本文首先通過介紹大資料的起因,給出了大資料的定義和特征描述,并簡要說明了目前大資料的研究概況。接下來,本文闡釋了大資料分析技術,對大資料在資訊安全領域尤其是安全管理平台領域的應用做了深入分析,并給出了基于大資料安全分析技術的安全管理平台的基本特征。最後,針對一個基于大資料安全分析技術的新一代安全管理平台從5V角度進行了深入介紹,并強調了安全分析師的關鍵作用。

無所不在的大資料

毫無疑問,我們已經進入了大資料(Big Data)時代。人類的生産生活每天都在産生大量的資料,并且産生的速度越來越快。根據IDC和EMC的聯合調查,到2020年全球資料總量将達到40ZB。

基于大資料分析的安全管理平台技術研究及應用【摘錄】

什麼是大資料?大資料早就存在,隻是一直沒有足夠的基礎實施和技術來對這些資料進行有價值的挖據。随着存儲成本的不斷下降、以及分析技術的不斷進步,尤其是雲計算的出現,不少公司已經發現了大資料的巨大價值:它們能揭示其他手段所看不到的新變化趨勢,包括需求、供給和顧客習慣等等。比如,銀行可以以此對自己的客戶有更深入的了解,提供更有個性的定制化服務;銀行和保險公司可以發現詐騙和騙保;零售企業更精确探知顧客需求變化,為不同的細分客戶群體提供更有針對性的選擇;制藥企業可以以此為依據開發新藥,詳細追蹤藥物療效,并監測潛在的副作用;安全公司則可以識别更具隐蔽性的攻擊、入侵和違規。

基于大資料分析的安全管理平台技術研究及應用【摘錄】

圖:硬碟每GB的成本變化(1980-2009年)【來源:http://www.mkomo.com/cost-per-gigabyte】

《華爾街日報》将大資料時代、智能化生産和無線網絡革命稱為引領未來繁榮的三大技術變革。麥肯錫公司的報告指出資料是一種生産資料,大資料是下一個創新、競争、生産力提高的前沿。世界經濟論壇的報告認定大資料為新财富,價值堪比石油。

不論從技術、還是商業角度,大資料都成為當下絕對的熱點。2013年,Gartner将大資料列為未來資訊架構發展的10大趨勢之首。Gartner預測将在2011年到2016年間累計創造2320億美元的産值。

大資料的定義

如何定義大資料?《大資料的沖擊》一書将大資料通俗定義為“用現有的一般技術難以管理的大量資料的集合”,并廣義地定義為“一個綜合性概念,它包括因具備3V(海量/高速/多樣,Volume / Variety/Velocity)特征而難以進行管理的資料,對這些資料進行存儲、處理、分析的技術,以及能夠通過分析這些資料獲得實用意義和觀點的人才群組織。”

Gartner将大資料定義為“海量、高速、多變的資訊資産,需要對它進行經濟的、創新性的資訊處理進而獲得超越以往的洞察力、決策支援能力和處理的自動化”(high volume, velocity and/or variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation)。

大資料的基本特征

大資料的三個公認的基本特點是3V,即海量、高速和多變。海量是指資料容量越來越大;高速表示需要處理的速度和響應的時間越來越快,對系統的延時要求相當高;多變就要處理各種各樣類型的資料,包括結構化的、半結構化的、甚至是非結構化的資料。

IBM在上述三個特點基礎之上增加了一個V(Veracity),即“真實性”、“準确性”。IBM認為隻有真實而準确的資料才能讓對資料的管控和治理真正有意義。

此外,業界還有人總結出其它的大資料特點,例如低價值密度(Value)、存活性(Viability),等等。低價值密度是指大資料中真正有意義的資訊含量比重低;存活性是指特定情況下的大資料具有很強的時效性。

大資料的研究概況

在IT領域,大資料也是最熱門的技術領域之一。Gartner在2012年繪制的Hype Cycle曲線展示出了目前大資料技術欣欣向榮的一番景象。

基于大資料分析的安全管理平台技術研究及應用【摘錄】

Gartner将大資料相關技術分為三個門類,分别是大資料支撐技術、大資料應用技術和針對新型資料進行分析的技術。

我國工程院院士邬賀铨将大資料技術從所面臨的挑戰的角度分為四個方面,分别是資料收集、資料存儲、資料處理和資料可視化。

微軟張亞勤将大資料劃分為三個層次,分别是資料的管理、資料的擴充和資料的呈現。

IBM的Stephen Watt給出了一個大資料生态系統的模型,将大資料技術劃分為7個部分,包括資料産生、資料存儲、資料處理、資料分享、資料檢索、資料分析、資料可視化,如下圖:

基于大資料分析的安全管理平台技術研究及應用【摘錄】

大資料需要資料分析師

以上所有針對大資料的定義和特點的闡述,都缺少一個重要的大資料組成要素——資料分析師(或者稱為資料科學家,Data Scientist)。在目前技術條件下,大資料分析的結果要想獲得最大程度的價值發揮需要借助專業的資料分析人員。

Natahn Yau首先提出“資料科學家就是能夠從大型資料集中析取出資料,并提供某些可供非資料專家使用的東西的人”。《福布斯》雜志認為“資料科學家就是采用科學方法、運用資料挖掘工具尋找新的資料洞察的工程師”。《哈佛商業評論》将資料科學家列為二十一世紀最性感的職業。

這表明,大資料技術要發揮作用仍然需要人的參與,并且是專業的資料分析師的參與。

大資料安全分析

大資料分析的定義

大資料技術的核心就是大資料分析(Big Data Analysis)。一般地,人們将大資料分析定義為一組能夠高效存儲和處理海量資料、并有效達成多種分析目标的工具及技術的集合。

Gartner将大資料分析定義為追求顯露模式檢測和發散模式檢測,以及強化對過去未連接配接資産的使用的實踐和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected information assets),意即一套針對大資料進行知識發現的方法。

通俗地講,大資料分析技術就是大資料的收集、存儲、分析和可視化的技術,是一套能夠解決大資料的4V(海量、高速、多變、低密度)問題,分析出高價值的資訊的工具集合。

大資料分析的基本技術支撐

從技術支撐架構的角度來看,大資料分析是一個軟體技術架構(Framework),主要包括以下能力:

1) 能夠處理特别巨大的資料集(Volume)

2) 提供極快的資料插入操作(Velocity)

3) 能夠操作多種資料類型(Variety)

4) 要支援實時資料分析和曆史資料分析

5) 提供多種資料分析方法/模型

6) 使用分布式并行處理機制(Volume & Velocity)

其中,大資料分析基本的特征就是這個軟體技術架構應該具有一個分布式開發架構。這個分布式開發架構可以是開源的Hadoop,或者其它具有相似分布式并行計算能力的架構,能夠實作Map/Reduce計算,能夠實作分布式計算節點的統一排程和彈性部署。基于這個分布式開發架構,實作海量資料的分布式采集、分布式存儲、分布式分析計算。

大資料分析的另一個技術支撐是海量資料的存儲技術。面對海量的資料,傳統的關系型資料庫已然無法滿足需要,需要進行改進或者革新。大資料分析系統的軟體技術架構必然會使用某種分布式資料庫技術或者NoSQL(非關系型資料庫)技術。

此外,一個實用的大資料分析系統一般都要同時具備實時資料分析與曆史資料分析能力。要獲得曆史資料分析能力,通常就是借助分布式開發架構的Map/Reduce批處理計算來實作。當然,有的大資料曆史分析系統還具備互動式計算能力(例如Google Dremel),實作快速查詢。而要獲得實時資料分析能力,分布式開發架構及其Map/Reduce計算模型就顯得力不從心了。這時候需要一個實時的流資料處理引擎,通常是采用CEP(Complex Event Processing,複雜事件處理)或者ESP(Event Stream Processing,事件流處理)技術的流資料處理引擎。

綜上所述,從開發者的角度來看,大資料分析的底層技術支撐包括三個:

1) 分布式計算架構(例如Hadoop,或者其他具有Map/Reduce機制的計算架構)

2) 分布式存儲機制(例如分布式資料庫、HDFS、NoSQL)

3) 流式計算架構(例如CEP、ESP)

從大資料分析到大資料安全分析

目前網絡與資訊安全領域,正在面臨多種挑戰。一方面,企業群組織安全體系架構日趨複雜,各種類型的安全資料越來越多,傳統的分析能力明顯力不從心;另一方面,新型威脅的興起,内控與合規的深入,傳統的分析方法存在諸多缺陷,越來越需要分析更多的安全資訊、并且要更加快速的做出判定和響應。資訊安全也面臨大資料帶來的挑戰。

安全資料的大資料化主要展現在以下三個方面:

1) 資料量越來越大:網絡已經從千兆邁向了萬兆,網絡安全裝置要分析的資料包資料量急劇上升。同時,随着NGFW的出現,安全網關要進行應用層協定的分析,分析的資料量更是大增。與此同時,随着安全防禦的縱深化,安全監測的内容不斷細化,除了傳統的攻擊監測,還出現了合規監測、應用監測、使用者行為監測、性能檢測、事務監測,等等,這些都意味着要監測和分析比以往更多的資料。此外,随着APT等新型威脅的興起,全包捕獲技術逐漸應用,海量資料處理問題也日益凸顯。

2) 速度越來越快:對于網絡裝置而言,包處理和轉發的速度需要更快;對于安管平台、事件分析平台而言,資料源的事件發送速率(EPS,Event per Second,事件數每秒)越來越快。

3) 種類越來越多:除了資料包、日志、資産資料,還加入了漏洞資訊、配置資訊、身份與通路資訊、使用者行為資訊、應用資訊、業務資訊、外部情報資訊等。

于是,業界出現了将大資料分析技術應用于資訊安全的技術——大資料安全分析 (Big Data Security Analysis,簡稱BDSA),也有人稱做大安全資料分析(Big Security Data Analysis)。兩者盡管表述有差異,但内涵一緻。前者強調基于大資料技術的安全分析,分析安全問題;後者強調大資料分析的對象是安全資料。

在網絡安全領域,大資料安全分析将包括以下幾個應用領域:

1) 安全事件管理和安全管理平台:這将是大資料安全分析的核心應用,也被稱作安全分析平台(Security Analytics Platform),後文将詳述。

2) APT檢測,包括全包捕獲技術

3) 0day惡意代碼分析,包括沙箱技術

4) 網絡驗證分析

5) 網絡異常流量檢測

6) 大規模使用者行為分析

7) 安全情報分析

8) 信譽服務

9) 代碼安全分析

2012年3月,Gartner發表了一份題為《Information Security Is Becoming a Big Data Analytics Problem》的報告,表示資訊安全問題正在變成一個大資料分析問題,大規模的安全資料需要被有效地關聯、分析和挖掘,并預測未來将出現安全分析平台,以及部分企業在未來五年将出現一個新的崗位——“安全分析師”或“安全資料分析師”。

基于大資料分析的安全管理平台技術研究及應用【摘錄】

對于大資料安全分析而言,最關鍵的不在于大資料本身,而在于對這些資料的分析方法。大資料安全分析可以用到大資料分析的所有普适性的方法和技術,但當應用到網絡安全領域的時候,還必須考慮到安全資料自身的特點和安全分析的目标,這樣大資料安全分析的應用才更有價值。例如,在進行異常行為分析,或者惡意代碼分析和APT攻擊分析的時候,分析模型才是最重要的。其次,才是考慮如何利用大資料分析技術(例如并行計算、實時計算、分布式計算)來實作這個分析模型。

基于大資料分析技術的安全管理平台

安全管理平台呼喚大資料分析

在所有網絡安全領域中,大資料分析對安全管理平台(SOC平台)及安全資訊與事件分析(SIEM)系統的影響最為深遠。這也是與它們先天的大資料分析特質密切相關的。

安全管理平台,有的也稱作SOC(Security Operations Center,安全營運中心)平台,一般是指以資産為核心,以安全事件管理為關鍵流程,采用安全域劃分的思想,建立一套實時的資産風險模型,協助管理者進行事件分析、風險分析、預警管理和應急響應處理的集中安全管理系統。

安全管理平台的核心之一便是安全資訊與事件管理,也稱作SIEM(Security Information and Event Management)系統。通常,SIEM為來自企業群組織中所有IT資源(包括網絡、系統和應用)産生的安全資訊(包括日志、告警等)進行統一的實時監控、曆史分析,對來自外部的入侵和内部的違規、誤操作行為進行監控、審計分析、調查驗證、出具各種報表報告,實作IT資源合規性管理的目标,同時提升企業群組織的安全營運、威脅管理和應急響應能力。

下圖顯示了一個典型的SIEM系統的結構圖:

基于大資料分析的安全管理平台技術研究及應用【摘錄】

由圖可知,一般的SIEM系統都具有安全事件(日志)的采集、範化、存儲、分析、展示等幾個過程,而這與大資料分析的收集、存儲、分析和可視化過程是完全相同的。是以,SIEM天然具有應用大資料分析技術的特質。

安全管理平台是在SIEM系統的基礎上,對采集的資料進行了大規模的擴充,并增加了分析模型,實作了基于風險的資産和業務的集中安全管理。

安全管理平台的核心是多樣化的安全要素資訊采集與存儲、多種安全分析與展示。而這與大資料分析的特征也是完全吻合的。

目前,安全管理平台的一個重要發展趨勢就是采集的安全資料種類越來越多,不僅包括傳統的資産資訊、事件資訊,還納入了漏洞資訊、性能資訊、流量資訊、配置資訊、業務資訊等等。與此同時,安全資料的産生速率和總量也急速增長。大型企業越來越傾向于采用集中化的安全管理平台構模組化式,單一管理平台就要管理全網的安全資訊,安全事件産生的速率達到上萬EPS,甚至是上10萬EPS,每天存儲的事件量則達到上百GB,甚至是上TB。另一方面,使用者需要安全管理平台提供更加精準的安全分析研判和問題定位,更加快速的安全應急響應與處置,對安全分析的準确性和分析結論價值度的要求越來越高。這一切都促使安全管理平台的技術開發者求助于大資料分析技術。

大資料安全分析首選安全管理平台

SANS在2013年9月份釋出的《安全分析調查》報告顯示,客戶進行大資料安全分析的時候,首選的是日志管理、SIEM等安全管理平台類系統。并且,超過60%的受訪客戶表示未來實作安全分析目标的首要投資對象是SIEM。

基于大資料分析的安全管理平台技術研究及應用【摘錄】

由此可見,目前來說,在所有大資料安全分析的應用領域中,SIEM及其安全管理平台是最重要的。

應該說,大資料分析技術并不能保證安全管理平台能夠應對上述挑戰,但卻給安全管理平台應對這些挑戰提供了全新的技術思路和發展模式。當安全管理平台遇上大資料分析,讓使用者和開發者看到了安全管理平台未來技術發展的一個全新方向。

基于大資料安全分析技術的安全管理平台基本特征

基于大資料安全分析技術的安全管理平台具有以下顯著特征:

1) Velocity:高速日志采集能力、高速事件分析能力;

2) Variety:支援多種日志源和日志類型,并支援對半結構化(例如原始資料封包、郵件、WEB請求與響應)和非結構化資訊(例如可疑代碼)的采集,具備異構資料間的關聯分析(即情境關聯)能力;

3) Volume:海量的事件存儲能力、海量資料分析能力;

4) valuablity:分析研判的結果是真正有價值的資訊、值得去關注的資訊,是可以用于輔助決策的資訊。這就意味着需要有效的資料分析方法和工具;

5) Visualization:安全分析結果的可視化呈現能力。

必須至少同時滿足上述5V,才能将一個安全管理平台稱為基于大資料安全分析技術的安全管理平台。

基于大資料分析的新一代安全管理平台介紹

【略】

小結

大資料時代已經到來,我們創造的大資料正在改變人類生産生活的各個方面。資訊與網絡安全作為保障IT數字資産的關鍵能力也正在被大資料所重新塑造。安全管理平台,作為安全保障體系中位于頂層的技術支撐平台,天然具有與大資料結合的特質。基于大資料安全分析技術的安全管理平台正在成為未來安全管理平台發展的重要技術方向。

同時,我們必須看到,不論安全管理平台的技術如何發展,如何與大資料結合,安全管理平台所要解決的客戶根本性問題,以及與客戶業務融合的趨勢依然未變。對大資料的應用依然要服務于解決客戶的實際安全管理問題這個根本目标。

繼續閱讀