人們将面臨大資料無法進行預測分析的挑戰

如今，大多數人認為在大資料時代，人們總是有足夠多的資訊來建立強大的分析，然而事實并非如此。在某些情況下，即便是大量的資料也仍然不支援基本預測的正常進行。很多時候,我們并沒有太多可以做到的事情，除了承認事實和堅持基本知識。這是大資料不能被用來預測的挑戰，似乎也是一個不可能的悖論，但是卻引來人們探讨為什麼會是這樣。

情景1：大資料，小宇宙

舉一個例子，當事物很少卻有大量的資料時，很難找到有意義的模式。以一家航空公司的制造商為例，如今，每架飛機每小時運作産生上千兆位元組的資料。諸如發動機在不同條件下操作，分析這些操作資料有很多好處。然而這對于一些分析行為來說可能很困難，如預測性維護。這是為什麼?

人們意識到，即使是最大的飛機制造商，每年也隻能生産出幾百架飛機。在考慮不同模型的時候，一年中可能隻有幾十個模型被生産出來。縱使飛機全部裝滿傳感器，也很難開發有意義的預測部件故障模型。為什麼?因為隻有幾十或幾百架飛機，樣品的數量太小。

特别是對于新飛機來說，這種情況還會加劇一些問題的出現(例如發動機或發動機部件之類的故障率較低)。是以，盡管可以在幾年的操作中收集pb的資料，但是可能沒有足夠的飛機來建立足夠大的事件池，進而建構真正有效的預測模型。當然，人們可以監測資料，尋找支援調查或幹預的異常模式，但是這不是一個預測模型。

情景2：大資料，大宇宙，令人難以置信的罕見事件

還有其它情況，那就是有大量的人或事物需要分析大量的資料。然而，當事件非常罕見時，仍然可能遇到一種情況，即沒有足夠的樣本來建構真正有效的預測模型。這并不是說，人們在分析資料和了解行為的各個方面沒有很多價值。它隻是說，有可能不能建立有效的預測模型。

讓我們考慮一下計算機晶片的生産情況。全球每年産生數億甚至數十億片晶片，并且其速度在不斷加快。幾十年前，一千個或一萬個的數量級缺陷可能是可以接受的。對于當今的晶片産品，其缺陷可能需要更接近百萬級。曾經有客戶提出，汽車行業面臨着壓力，需要将晶片缺陷率降低到十億分之一或更低。這是為什麼?主要是因為如果實作這種低錯誤率，并且人們可以假設導緻有缺陷晶片存在的原因，則對于任何特定的一組原因，其發生任何缺陷的執行個體會變少，人們可能沒有足夠的樣本來分析，但能夠産生良好的模型以預測這些失敗可能發生的時間和地點。人們考慮到晶片技術将随着時間的推移而過時，在短短幾年内被更新的産品所替代，是以，這可能是一個持續時間比較久的問題。

不要絕望，做好準備

請記住，在這裡提出的問題并不是什麼規則，而隻是樣本。然而，随着人們收集資料的來源越來越多，企業開始考慮用越來越多的因素來分析業務，這些異常樣本肯定會出現在組織内部。重要的是，人們隻需要關注一個非常小的宇宙來分析，或者通過一個令人難以置信的稀有事件來分析。更糟糕的是，這種罕見事件是小宇宙中的。假設隻考慮資料與業務問題相關的情況，而那些不相關的資料将永遠不會增加價值，無論其數量多麼大或多麼小。

當人們不确定自己的資料是否是有效預測時，請確定在用于開發資料的複雜分析之前投入更多精力，其評估可能是可行的。在某些情況下，人們可能需要解決基本分析問題。然而，重要的是要記住，這種情況應該比沒有任何資料來分析更好。

本文轉自d1net（轉載）

人們将面臨大資料無法進行預測分析的挑戰

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark