天天看點

雲計算與大資料的關系

雲計算是基于網際網路的相關服務的增加、使用和傳遞模式,這種模式提供可用的、便捷的、按需的網絡通路, 進入可配置的計算資源共享池,這些資源能夠被快速提供,隻需投入很少的管理工作,或與服務供應商進行很少的互動。雲是網絡、網際網路的一種比喻說法。

大資料的對資料進行專業化處理的過程離不開雲計算的支援。大資料必然無法用單台的計算機進行處理,必須采用分布式架構。它的特色在于對海量資料進行分布式資料挖掘。但它必須依托雲計算的分布式處理、分布式資料庫和雲存儲、虛拟化技術。大資料分析常和雲計算聯系到一起,因為實時的大型資料集分析需要架構來向數十、數百或甚至數千的電腦組態設定工作。并且,大資料需要特殊的技術,以有效地處理大量的容忍經過時間内的資料。适用于大資料的技術,包括大規模并行處理資料庫、資料挖掘、分布式檔案系統、分布式資料庫、雲計算平台、網際網路和可擴充的存儲系統。

簡而言之,雲計算作為計算資源的底層,支撐着上層的大資料處理。本質上講,雲計算強調的是計算能力;而大資料強調的是處理、計算的對象。二者并不是孤立存在的,而是互相關聯的。

雲計算中的重要組成部分既是基礎設施還是儲存設備;大資料提供給使用者的服務需要對資料進行處理,主要落腳在對資料的加工上。是以,雲計算與大資料兩者密不可分。

對于大資料初學者而言,很容易簡單地将大資料了解成為“大量的資料”,但是大資料的内涵不止于此.在維基百科中,将大資料定義為無法在一定時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資産。

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用随機分析法(抽樣調查)這樣捷徑,而采用所有資料進行分析處理。IBM提出了大資料的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。下面會在1.3詳細解釋5V的含義。

了解大資料概念意義在于能夠準确地在合适的條件下使用大資料處理方式進行有效處理,而不是在無需使用大資料技術的情況下使用,或者在必須使用大資料技術的情況下遺忘,這都有可能造成資料處理效率的低下。

一般而言,我們會根據大資料的5V特點來判斷該資料是否适合于使用大資料技術來處理,并且,這5V中對于Volume(大量)的要求是必要的,這裡的大量不僅僅是指目前所需處理的大量,也包含對未來資料量的預期。

通常情況下,當資料的量級達到TB,或者當這批資料會在未來一段時間内不斷增長且會增長到PB量級時,即可将其定義為Volume(大量)。

在資料滿足Volume(大量)特征的前提下,剩下的4V比對零條到多條時,就可将這批資料定義為大資料。其中,Velocity(高速)代表對資料處理時效性的要求,理論上而言,在不考慮時間的前提下,我們可以使用單節點的處理方式處理任何量級的資料,但是效率會非常低下,在大多數場景下,超過24小時的處理時間就不再劇有時效性了,是以我們需要采用大資料的處理方式。

Variety(多樣)表現在資料形式的多樣性。例如當我們需要将web系統json格式的日志資料,關系型資料庫中的業務資料,windows檔案系統中的檔案資料進行彙總分析的時候,我們可以使用大資料技術進行統一存儲,再經過一定處理後進行分析。這是其他單一處理方式所不具備的處理手段。

Value(低價值密度)和Veracity(真實性)更加偏向于對資料是否屬于大資料的驗證和描述,一般不用來進行大資料的判斷。例如在1TB的交易資料中,我們想分析買A品牌鞋子的年齡段,那麼其中有價值的年齡資料可能隻占了這1TB資料的千萬分之一,但是在另一個場景下,比如我們想分析某種行為下的性别特征,那又是另外千萬分之一的資料擁有了價值。

從目前社會生産生活的角度而言,大資料的應用場景幾乎涵蓋方方面面,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在内的社會各行各業都已經融入了大資料的印迹。

制造業,利用工業大資料提升制造業水準,包括産品故障診斷與預測、分析工藝流程、改進生産工藝,優化生産過程能耗、工業供應鍊分析與優化、生産計劃與排程。

金融行業,大資料在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。

汽車行業,利用大資料和物聯網技術的無人駕駛汽車,在不遠的未來将走入我們的日常生活。

網際網路行業,借助于大資料技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。

電信行業,利用大資料技術實作客戶離網分析,及時掌握客戶離網傾向,出台客戶挽留措施。

能源行業,随着智能電網的發展,電力公司可以掌握海量的使用者用電資訊,利用大資料技術分析使用者用電模式,可以改進電網運作,合理設計電力需求響應系統,確定電網運作安全。

物流行業,利用大資料優化物流網絡,提高物流效率,降低物流成本。

城市管理,可以利用大資料實作智能交通、環保監測、城市規劃和智能安防。

生物醫學,大資料可以幫助我們實作流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,了解更多的生命奧秘。

體育娛樂,大資料可以幫助我們訓練球隊,決定投拍哪種題财的影視作品,以及預測比賽結果。

安全領域,政府可以利用大資料技術建構起強大的國家安全保障體系,企業可以利用大資料抵禦網絡攻擊,警察可以借助大資料來預防犯罪。

個人生活,大資料還可以應用于個人生活,利用與每個人相關聯的“個人大資料”,分析個人生活行為習慣,為其提供更加周到的個性化服務。

大資料的價值,遠遠不止于此,大資料對各行各業的滲透,大大推動了社會生産和生活,未來也必将産生重大而深遠的影響。

繼續閱讀