天天看點

管理大資料需要了解面臨的挑戰

如今,我們每天有多少資料處理?每年将産生多少資料?這一數字變化如此之快,每一年或兩年翻一番,人們隻能從知情人士獲得最佳的估計數量。而這些透露消息的人士,其中大部分都是在組織中資料管理領域的傑出人物,他們所估計這個數字如此之高,這幾乎讓人不可能想象。根據全球市場調查機構idc公司稱,在2011年,我們大約創造了1.8澤位元組的資料,換而言之就是1.8萬億千兆位元組的資訊。他們繼續說,在2012年,我們創造了2.8澤位元組的資訊。此外,他們說,到2020年,我們将産生40澤位元組的資訊。

據ibm公司估計,我們現在每天建立了2.50億千兆位元組的資料。

這種大規模的資料集被稱為大資料。大資料是已經成為非常流行的一個術語,以皮位元組和艾位元組表示和描述資料集,并且其有時施加到資料集的技術,并處理它的應用設定。

對于這篇文章的目的,我們将限制定義一個描述巨大的資料量。在2014年9月aip會議議事程式中,安德列德·毛羅,馬可·格雷科,米歇爾·格裡馬爾迪為我們提供了一個更具體的和健壯的定義:“大資料代表着這種高容量的資訊資産的特征,通過各種需要特定的技術和分析方法,将其轉變為價值”。

注意,這個定義是很重要的。它不僅是資料的數量,或體積,而且還有速度,也就是服務和消耗的速度。資料流已經改變了我們對存儲和傳遞資料的看法,并放置在基礎設施和應用程式引擎中,而以前難以想象要求能這樣做。

一個更近的維基百科定義了“體積,速度和品種”短語,并添加到另外兩個額外的“v”的概念,這兩者都與大資料所面臨的挑戰非常相關的:變異性和準确性。

資料采集及其應用

随着網際網路的出現和使用大資料的人數成倍增長,收集大量資料的能力也與之一起成長。資料收集發生幾乎一樣的其他計算活動的副作用。在我們采取的過程中,資料在建立帳戶,上傳檔案,以及産生其他明顯的行動。然而,資料也被無意送出收集,因為一些其它活性的副産品。一個看似私人的行為,如點選一個連結,對于營銷人員就可以提供一個有價值的資訊。是以,資料正在被記錄和存儲。并且在某處進行處理。

而計算機對于從業人員處理資訊是優秀的,但沒過多久,營銷等行業實作保留供收集資料的大量的潛力,因為它是在網絡上傳來傳去,最引人注目的是網際網路(雖然重要的是記住很多大資料,并将其存儲在企業的内部網)。當該資料與其他資料,例如人口統計資訊,一個人的youtube的喜好,地理位置,社會行為與outlook配對,這個資料變得更加強大。

其他行業也意識到,他們在收集和處理資訊方面從來沒有見過這樣大的規模。不僅網際網路,而且企業和其他實體的内部網絡可以容納大量的資訊。在美國、印度和其他地方的政府已經能夠運作更精細的資料調整,以赢得選舉。國際組織收集和使用醫療保健、生産力,以及就業資料,以幫助他們了解發展資金是最好的花費。私營部門在許多方面使用大資料,包括交易資料和分析。科學研究涉及到大資料分析,例如,大型強子對撞機的科研活動,以及超大型望遠鏡(vlt)陣列的資料傳回。此外,大資料改變了制造業,通過提供生産、需求、足夠的資料,分析師将了解是什麼導緻短缺和過剩,并對以前難以确定行為和計劃進行可用性分析。

資料記錄的澤位元組是一回事,資料采集友善又便宜。當你認為你正在做别的事情的時候,資料收集正在發生。而我們如何利用它是一個完全不同的問題,也是任何組織所面臨的最大挑戰之一,從企業營銷到政府部門,将考慮如何有效地使用這樣大量的資料。

德毛羅等人所描述的資料的品種是大資料的關鍵特征之一。資料源無處不在,并收集所有類型的資訊,其中一些應該被認為是敏感的,需要安全處理。随着各種各樣的資料到來,這意味着來自不同來源的資料,格式和可通路性,即使是相同的資訊,也可能是不同的。最後,資料的可靠性和準确性,是資料分析人員必須關注的重點。“髒資料”一直是資料庫管理的一個問題,但這個問題與今天的環境指數相乘,具有更高的容量,并提供資料多源。

當它被成功地分析,大資料可以幫助科學家解碼dna,它可以幫助政府預測恐怖活動,它可以調整企業的産品結構,以滿足客戶的需求。

但面對這樣的資料采集,持有人的問題是将如何利用它?并且越來越多,我們如何對此保證安全?

挑戰和安全

如今,人們所面臨的安全漏洞一直是很嚴重的,但大資料的安全漏洞可能是災難性的。資料收集可以包括非常敏感和極其隐秘的個人資訊,這将成為身份盜竊和惡意操縱的潛在資料。随着企業開發他們的大資料存儲和分析系統,安全性必須列于他們的優先級名單的首位。

資料分析系統面臨着大資料這個第一大挑戰是簡單的事實,系統和流程都不能處理,我們現在希望定期處理這些資料。存儲基礎設施相對容易建立:因為儲存設備已經成為廉價和可用的,并對其挑戰有着相當充分的了解。具分析和使用資料是目前正在開發的高需求,很多企業都已經建立了自己的内部資料分析:谷歌公司在2014年每天處理的資訊大約20pb。

====================================分割線================================

本文轉自d1net(轉載)

繼續閱讀