天天看點

什麼是大資料?

  然而,什麼是大資料?至今也沒有一個比較權威的定義。

  麥肯錫曾給出大資料的定義是:大資料是指大小超出了正常資料庫工具擷取、存儲、管理和分析能力的資料集合。

  維基百科也給出類似的定義:大資料指的是所涉及的資料量規模大到無法通過目前主流軟體工具,在合理時間内達到撷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。

  一句話,大資料就是資料量大?!

  我覺得,這句話說了等于沒說,還容易讓人誤解。你以為資料量大才是大資料?

  大資料(Big Data)的概念,其實早在上個世紀九十年代就已經提出。

  最初,大資料是特指由于需要處理的資料量過大,其所需要的計算能力已經超出了單台電腦的處理能力,是以工程師們必須要找到新的處理技術和方法,以便快速處理資料。比如,

二手手機靓号交易平台

要利用上百上千台電腦組建的叢集系統中,實作海量資料的分布式存儲和分布式計算,但這需要新的計算系統(比如Apache的開源系統Hadoop大資料平台系統)來實作。

  另一方面,随着網際網路的發展,所謂資料也不僅僅是指儲存在資料庫中的排列整齊的結構化資料,也包含大量的非結構化和半結構化的資料(比如網頁、圖檔、音頻、視訊等等),這些資料也同樣蘊含着重要的資訊,也屬于大資料的範疇。

  是以,用資料本身的特征來定義,大資料可以了解為海量資料和複雜資料。

  大資料=海量資料 + 複雜資料

  其實,大資料并非一個确切的概念,就正如網際網路的概念一樣。網際網路,不僅僅是一個計算機網絡,其中有更豐富的内涵;大資料,也不僅僅是資料量大那麼簡單。

  在今天,大資料隻是一個泛稱,它可以是一種應用場景,也可以是一種技術(分布式技術),是一種方法(分析和挖掘方法),是一種工具(探索事物規律的工具),更是一種思維方式(大資料思維),等等。

  盡管,無法給大資料一個明确的定義,但這并不妨礙人們将這個概念應用到人類社會中的所有行業、所有領域中,以解決生活、工作、商業的問題。