天天看點

美國國家安全局如何監控網際網路大資料

美國國家安全局如何監控網際網路大資料

僅僅在五年之前,諸如美國國家安全局(national security agency,nsa)這樣的政府機構要想通過關鍵詞的方式高效率地分析數百萬份電話、文本消息和線上聊天記錄,簡直是不可能完成的任務。不過目前,一系列新技術的使用則讓nsa擁有相對充分的人力和财力做到這一點。尤其考慮到,這些關鍵詞最終有可能避免未來針對美國恐怖襲擊的放生。

這些新技術能夠在一個單獨的資料庫裡存儲大量不同類型的資料,而且不需要使用造價昂貴的硬體裝置就能夠實作資料的高速處理,同時還無需資料分析專家提前設定假設條件。

哈佛商學院客座教授、資料分析專家湯姆•達文波特(tom davenport)指出:“這些新技術為政府部門節省了巨額開支,同時還極大地提高了政府部門分析此類資料的能力。雖然需要配套的資料中心支援才能完成資料分析任務,但這些技術的成本要遠比幾年前低得多。”

nsa斥資十二億美元在猶他州打造大型資料中心将于今年秋季投入使用。目前尚不明确的是,到底nsa在覆寫全美的資料中心使用的是何種計算技術。但總體來說,這些技術被分為三大類型:

1. 資料庫系統

大多數使用sql程式設計語言的傳統資料庫是把資料存儲在由行與列組成的表格中。然而,當遇到存儲包括電子郵件或文本資訊等字元串時,傳統資料庫就暴露了能力有限的弊端。而且它們還無法處理圖檔或視訊。

而于2009年年底開始出現的新型資料庫nosql(not only sql,不僅僅是sql)則突破了傳統資料庫的能力限制,可以允許資料分析專家針對所有類型的資料建立資訊要求。這些新型資料庫包括mongodb、cassandra和simple db等。

在幫助公司分析超大型資料組方面,nosql資料庫展現出了非凡的能力。比如,美國保險資料供應商verisk analytics inc.的分析師就在針對數十億客戶資料不斷運作各種不同的資料模式和分析方法,以從中發現虛假保險索賠記錄。

verisk副總裁兼首席資訊官佩裡•羅泰拉(perry rotella)表示,使用ibm提供的傳統db2資料庫“需要通宵達旦地工作6個小時才能完成工作”。此後,分析師還得投入大量時間研究得出的資料結果,并提出新的資訊要求,而這恐怕還得再熬一個晚上。他指出,分析師每次都需要花費幾周時間才能建立出新的資料模型。verisk最近剛剛開始使用更換後的nosql資料庫,分析師僅用30秒就能完成相同類型要求的運作。

羅泰拉表示:“突然之間,你的模型建構告别了幾天才更新一次的傳統,變成了實時更新狀态。通過使用nosql資料庫,你可以在一天内多次進行資料運作,這極大地縮短了獲得資料結果的時間。這項功能簡直太強大了。”

對于美國線上圖檔交易平台服務商shutterstock inc.來說,如果沒有nosql,該公司簡直無法生存。shutterstock擁有超過2,400萬張圖檔的存儲庫,而且每天還以1萬張圖檔的速度遞增。其中的每張圖檔都擁有相關資料來幫助使用者縮小搜尋範圍。shutterstock的資料庫還記錄使用者在該網站上的所有網絡行為,這些行為不僅包括諸如他們授權何種圖檔這樣的重大決定,而且還包括微小的細節,比如他們的滑鼠箭頭經常停留在什麼地方以及停留的具體時長。

2.機器學習

傳統分析要求分析師對資料有充分的了解,然後才能建立假設問題,進而針對資料庫提出複雜的問題。而最近以機器學習和自然語言處理為核心的程式設計技術則依靠計算機程式來發現資料類型,甚至還可以根據上下文闡明模糊詞彙的意義。

達文波特指出:“你可以把機器學習程式植入多個資料之中,然後你就會看到該程式會給你提供什麼樣的分析結果。通過使用自然語言處理技術,你還可以分辨出‘炸彈’這個詞是百老彙舞台劇的劇名,還是恐怖分子将會使用的武器。”

權威市場研究機構gartner inc.的分析師道格拉斯•萊尼(douglas laney)指出,機器學習又被稱之為“認知分析”,它能夠讓分析師提出的問題不斷進行“自我修正”。比如,在新資訊出現時,零售商就可以使用該技術來實時自動更新計價算法。這些新資訊包括天氣、時間、甚至是消費者在其零售店裡的行為視訊。

萊尼表示:“以前,更新價格往往需要一天多的時間,但這些零售商現在可以每小時就制定一個新價格,并借助趨勢資訊實施産品的實時定價。我不确定他們在一年前能否做到這一點。”

3.hadoop基礎架構

直到最近,還是隻有造價昂貴的硬體裝置才能夠運作特别複雜的計算機程式,比如超大型計算機裝置。但現在,hadoop開源軟體分布式系統基礎架構已經能夠讓從資料庫提取資訊的過程進行分布實施。在這一過程中,不同的分析任務被配置設定給大量造價低廉的伺服器進行分析,每個伺服器隻負責分析其中的一部分内容,然後這些内容又會在任務結束後被彙總在一起。達文波特表示:“這非常省錢,而且運作速度特别快。”

這種将複雜的問題配置設定給大量造價低廉的計算機處理的能力有助于人們獲得問題的及時回報,而且人們還會獲得大量的資料變量。比如,美國汽車資訊網站edmunds.com可以幫助汽車經銷商預測一輛車在他們自己的停車場裡停留的平均時間。這種預測能夠最大限度地縮短一輛車售出的時長。edmunds.com的首席資訊官菲利普•波特洛夫(philip potloff)指出:“對于汽車經銷商來說,這可是衡量銷售業績最為重要的名額之一。”

流媒體視訊服務商netflix inc.則使用hadoop勾勒出使用者使用多種裝置接入視訊的流量資料圖譜。這有助于netflix提高其為移動裝置、筆記本和電視機提供視訊資料的可靠性,同時幫助netflix規劃流媒體電影和電視劇集的未來增長。此外,hadoop還幫助netflix更好地分析客戶喜好,進而為該公司提供改進建議。

<b>原文釋出時間為:2013-10-01</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>