大資料理論遇上新興分析工具挑戰無處不在

對于大資料，有觀點認為有了足夠大的資料集，分析的統計方法就是非必要的。我們将其稱為“n等價于所有”的理論。而按這樣的說法，抽樣和推理都是浪費時間。擁有了所有的資料，就隻需讓資料說話。

雖然“n等價于所有”的理論在短短幾年前還是革命性的産物，作為正在上線的新穎而且更具潛在價值的分析方法，它很快就過時了。對于将所有資料對應一個給定主題這樣的概念，物聯網（iot）分析和認知計算這對大資料的流行觀點帶來了挑戰，而且這也要求那些分析專家重新對他們的做法進行評估。

“n等價于所有”的架構的早期形成是在2008年——大資料時代的開端。chris anderson在《連線》雜志中撰文談及的例子提到，在廣告和生物等領域，拍位元組大小的資料存儲可以讓答案變得清晰。足夠大的資料集意味着研究人員甚至不需要設定問題或是假設。這些數字說明了一切。但是當你在談論新興分析技術的時候，事情并不是這樣的。

物聯網不會将所有資料收入囊中

一說到物聯網，會很自然地将曾經所有的資料排除在外。它包括每秒鐘重新整理的源源不斷傳入的資訊流。它會告訴你時刻發生的事情，而不是尋求獲得大量關鍵資料來回答可溯源問題。

最有效的物聯網政策可以從傳統大資料的角度識别技術有何不同。對于物聯網來說，邊緣分析已經成為關鍵組成部分。這包括了在随着資料建立用于計算的邊緣網絡的網絡裝置和傳感器中的統計算法，對于要将哪些資料送回中心資料庫，要抛棄哪些資料，它們會進行決策。在這種情況下，更多的資料隻會是負擔。你永遠不會想要所有的資料。我們會使用統計方法來決定使用哪些資料。

認知計算帶來不同的挑戰

由認知計算帶來的對主流大資料理論的挑戰是有所不同的。在認知計算中，不論我們是否在談論人工智能(ai)或深度學習，或者你是否能有足夠的資料是沒有意義的。算法通過經驗加以改進，而且它們越是獲得更多的訓練，表現會越出色。

谷歌的圍棋人工智能算法alphago(阿爾法狗)通過提取人類玩家完成的3000萬棋局走法，學會了玩棋類遊戲。這是作為該算法的初步訓練，但這還不夠。接着它跟自己下了數千局棋，并對每場比賽進行改進。最終，它改進到能夠擊敗該棋類遊戲的每個人類大師。

但是，從理論上講，該算法還是能夠通過不斷學習來進行自身優化。你永遠不能說它已經學會了玩兒這種遊戲的所有内容。這同樣适用于像語音識别，計算機視覺和自然語言處理之類的其他深度學習實踐。人類是認知計算算法最為接近的模拟。沒有理由認為一種算法能夠獲得所有需要的資料來最優地執行這些任務。

是時候重新考慮大資料的性質了

曾經有段時間“n等價于所有”的大資料理論被認為是終極的價值主張。調查整個資料集的能力似乎為提出特定問題和接收特定的答案提供了功能，而不必依賴必須涉及一定程度上不确定性的統計方法。

但是，越來越多的企業真正的價值和他們在市場上逐漸面臨差異将來自于這些新興的分析趨勢。那些想要在業界保持領先的企業需要對“什麼是大資料”進行重新審視。

本文轉自d1net（轉載）

大資料理論遇上新興分析工具挑戰無處不在

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希

大資料理論遇上新興分析工具 挑戰無處不在

繼續閱讀

大資料理論遇上新興分析工具挑戰無處不在