天天看點

《資料科學家修煉之道》一1.1 深挖大資料

本節書摘來異步社群《資料科學家修煉之道》一書中的第1章,第1.1節,作者: 【美】zacharias voulgaris(弗格裡斯)譯者: 吳文磊 , 田原 責編: 陳冀康,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

大資料含有與我們身邊的業務難題息息相關的豐富資訊。舉例來說,如果你是一個電商公司的經理,你就可以在你公司網站上收集到關于你客戶和訪客的豐富資訊,若能對此善加利用,你就能夠增加公司的銷售額、提升網站設計并改善客戶服務,它還能為你提供市場政策和提升公司的整體政策的建議。這些都是由居住在你的伺服器中的0和1實作的。你隻需要從你的資源中分出一小部分,并從這些資料中間提煉出資訊。這當然不是一樁賠本買賣,我們稍後會再回到這個例子。盡管有些網絡資料披着大資料的外衣,但并不是每一種資料融合都可以叫做大資料。這主要是因為大資料的4個v特性。[1]

《資料科學家修煉之道》一1.1 深挖大資料

如我們之前所看到的,它們有如下幾個特性。

體量(volume):大資料由大量資料組成,從幾個tb到幾個zb。這些資料可能會分布在許多地方,通常是在一些連入網際網路的計算網絡中。一般來說,凡是滿足大資料的幾個v的條件的資料都會因為太大而無法被單獨的計算機處理。單單這一個問題就需要一種不同的資料處理思路,這也使得并行計算技術(例如mapreduce)得以迅速崛起。

高速(velocity):大資料是在運動着的,通常處于很高的傳輸速度之下。它經常被認為是資料流,而資料流通常是很難被歸檔的(考慮到有限的網絡存儲空間,單單是高速就已經是一個巨大的問題)。這就是為什麼隻能收集到資料其中的某些部分。如果我們有能力收集資料的全部,長時間存儲大量資料也會顯得非常昂貴,是以周期性的收集資料遺棄一部分資料以節省空間,僅保留資料摘要(如平均值和方差)。這個問題在未來會顯得更為嚴重,因為越來越多的資料正以越來越快的速度所産生。

多樣(variety):在過去,資料或多或少是同構的,這種特點也使得它更易于管理。這種情況并不出現在大資料中,由于資料的來源各異,是以形式各異。這展現為各種不同的資料結構類型,半結構化以及完全非結構化的資料類型。結構化資料多被發現在傳統資料庫中,資料的類型被預定義在定長的列字段中。半結構化資料有一些結構特征,但不總是保持一緻(舉例來說,看一看json檔案),使得這種類型難以處理。更富于挑戰的是非結構化資料(例如純文字檔案)毫無結構特征可言。在大資料中,更常見的是半結構化資料,而且這些資料源的資料格式還各不相同。

在過去的幾年裡,半結構化資料和結構化資料成為了大資料的主體資料類型。

準确(veracity):這是一個在讨論大資料時時常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,盡管它與其他的屬性同樣重要。這是一個與資料是否可靠相關的屬性,也就是那些在資料科學流程中會被用于決策的資料(而這不同于與傳統的資料分析流程,我們會在第11章中看到)。精确性與信噪比(signal-to-noise ratio)有關。例如,在大資料中發現哪些資料對商業是真正有效的,這在資訊理論中是個十分重要的概念。由于并不是所有的資料源都具有相等的可靠性,在這個過程中,大資料的精确性會趨于變化。如何增加可用資料的精确性是大資料的主要挑戰。注意,即使有些資料擁有這4種屬性中的一種或多種,也不能被歸類為大資料。大資料擁有以上全部4種特性。大資料是一個重要課題,因為它并不容易處理,即使是對于一台超級計算機,也很難獨自有效地展開分析。

在我們最開始的案例中,一個你會面臨的典型資料集可能會有以下性質。

資料量會非常大,并伴随着更快的增長趨勢,特别是如果你的網站在監控通路者的各方面行為時。這些資料會很輕易地在一年之内達到幾個tb。

由于通路者來來去去以及不斷有新的通路者加入,資料會持續流動。這會變成在你伺服器上連續的網絡活動,也就是從網站中湧入你的伺服器日志的資料流。

這些從通路者身上收集來的資料會有很大的不同,從簡單的網站統計資料(例如在每一頁上所花費的時間、通路總時間、通路了哪些頁面,等等)到在網站中輸入的文字(假設你有一些評論系統,例如大多電商網站)以及其他類型的資料(例如,消費者對各類商品的評分以及交易記錄, 等等)

很自然地,并不是你在伺服器上所觀察到的一切都是值得信任的。有一些通路可能來自于黑客的機器人或者是來自于一些使用者的不良目的,而有部分通路者可能是你的競争者,正在暗中觀察你!一些通路者會在他們的評論中寫錯别字,或是因為一些原因留下一些随意的或是無用的資訊。即使你有一些過濾系統,你的網站上不時地收到一些無效資料也是不可避免的。

基于以上所有的觀察,你還認為你在公司處理着大資料嗎?為什麼?如果你了解了上面說的這些概念,你應該自信并正面回答這些問題。每一個描述這個公司的資料情形的要點都與這幾個v中的某一個有關。

繼續閱讀