大資料應用？你先搞定資料擷取再說

雖然大資料已經變得更像一句營銷術語，但是它仍有巨大的潛力沒有被挖掘出來。不過，得先把資料擷取這個大麻煩解決了。

企業在面對資料的時候，比知道怎麼處理更多的情況，是在這些資料裡漫無目的的遊泳。遺憾的是，太多的公司将這種現象與大資料本身關聯起來。從技術角度來說，大資料是非常具體的一件事――結構化資料(企業的專有資訊)與非結構化資料(社交媒體資料流和政府新聞源之類的公共資料源)的結合體。

如果你将非結構化資料覆寫在結構化資料之上，通過分析軟體将其可視化，你就會得到過去從未有過的洞察力――預測産品銷售、更精準地目标使用者、新的市場機遇，等等。

大資料不再像過去幾年一樣，受限于工具缺乏的問題。那時候搞大資料意味着團隊裡必須有資料科學家，還會被r和hadoop之類的開源工具搞得心煩意亂。

如今，多少公司都争着幫你可視化大資料：從tableau、qlik、tibco和microstrategy之類的專業公司，到微軟、ibm、sap和甲骨文之類提供端到端服務的廠商，不一而足。

不過，據上周出席奧蘭多中級市場cio論壇/中級市場首席營銷官(cmo)論壇的it主管們聲稱，許多公司在大資料分析中最頭疼的問題，其實是如何擷取資料。

一位cio說：“我們it部門的最大問題，是我們如何才能将資料擷取進來，這件事非常麻煩。”

這種說法也得到了相關資料的證明。

資料內建公司xplenty開展的一項調查聲稱，三分之一的商業智能專業人員把50%至90%的時間，花在了清理原始資料和将資料錄入到公司的資料平台的準備工作上。這種現象的原因，可能與隻有28%的公司認為自己能從資料中獲得戰略性價值有很大關系。

資料清理的問題還包括，眼下it行業許多最搶手的專業人員，正在花大量時間處理這項讓人暈頭轉向的工作：在分析資料之前先篩選并組織整理資料集。

這顯然對于資料的可擴充性非常不利，也嚴重限制了大資料的潛力。随着物聯網不斷發展，收集更多的資料對我們來說将越來越容易，這個問題隻會變得更嚴峻。

有三種可能的方法有望解決這個問題：

1. 大資料分析軟體不斷完善――許多這些公司在過去五年時一直投入大量精力在大資料領域，減輕資料清理環節壓力的工具不太可能在短期内出現重大突破，但有望實作逐漸改進。

2. 資料準備人員成為資料科學家的助手――正如律師助理幫助律師處理重要的基礎工作，資料準備人員也會幫助資料科學家處理基本上同樣的底層任務。我們已經在某種程度上看到了這一幕。不妨閱讀techrepublic的這篇文章：《“資料标記”是人工智能時代的新新藍領工作嗎?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

3. 利用人工智能清理資料――另一種可能性是，用來清理、篩選和分類資料的軟體和算法将被編寫出來。這一幕極有可能出現，但是我們還應預料到，這也不是“銀彈”。微軟、ibm和亞馬遜正在緻力于用人工進行軟體無法處理的資料标記工作――而這正是全球自動化和算法領域的三巨頭。

原文釋出時間為：2016年4月13日

本文來自雲栖社群合作夥伴至頂網，了解相關資訊可以關注至頂網。

大資料應用？你先搞定資料擷取再說

繼續閱讀

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希