天天看點

大資料應用?你先搞定資料擷取再說

雖然大資料已經變得更像一句營銷術語,但是它仍有巨大的潛力沒有被挖掘出來。不過,得先把資料擷取這個大麻煩解決了。

企業在面對資料的時候,比知道怎麼處理更多的情況,是在這些資料裡漫無目的的遊泳。遺憾的是,太多的公司将這種現象與大資料本身關聯起來。從技術角度來說,大資料是非常具體的一件事――結構化資料(企業的專有資訊)與非結構化資料(社交媒體資料流和政府新聞源之類的公共資料源)的結合體。

如果你将非結構化資料覆寫在結構化資料之上,通過分析軟體将其可視化,你就會得到過去從未有過的洞察力――預測産品銷售、更精準地目标使用者、新的市場機遇,等等。

大資料不再像過去幾年一樣,受限于工具缺乏的問題。那時候搞大資料意味着團隊裡必須有資料科學家,還會被r和hadoop之類的開源工具搞得心煩意亂。

如今,多少公司都争着幫你可視化大資料:從tableau、qlik、tibco和microstrategy之類的專業公司,到微軟、ibm、sap和甲骨文之類提供端到端服務的廠商,不一而足。

不過,據上周出席奧蘭多中級市場cio論壇/中級市場首席營銷官(cmo)論壇的it主管們聲稱,許多公司在大資料分析中最頭疼的問題,其實是如何擷取資料。

一位cio說:“我們it部門的最大問題,是我們如何才能将資料擷取進來,這件事非常麻煩。”

這種說法也得到了相關資料的證明。

資料內建公司xplenty開展的一項調查聲稱,三分之一的商業智能專業人員把50%至90%的時間,花在了清理原始資料和将資料錄入到公司的資料平台的準備工作上。這種現象的原因,可能與隻有28%的公司認為自己能從資料中獲得戰略性價值有很大關系。

資料清理的問題還包括,眼下it行業許多最搶手的專業人員,正在花大量時間處理這項讓人暈頭轉向的工作:在分析資料之前先篩選并組織整理資料集。

這顯然對于資料的可擴充性非常不利,也嚴重限制了大資料的潛力。随着物聯網不斷發展,收集更多的資料對我們來說将越來越容易,這個問題隻會變得更嚴峻。

有三種可能的方法有望解決這個問題:

1. 大資料分析軟體不斷完善――許多這些公司在過去五年時一直投入大量精力在大資料領域,減輕資料清理環節壓力的工具不太可能在短期内出現重大突破,但有望實作逐漸改進。

2. 資料準備人員成為資料科學家的助手――正如律師助理幫助律師處理重要的基礎工作,資料準備人員也會幫助資料科學家處理基本上同樣的底層任務。我們已經在某種程度上看到了這一幕。不妨閱讀techrepublic的這篇文章:《“資料标記”是人工智能時代的新新藍領工作嗎?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

3. 利用人工智能清理資料――另一種可能性是,用來清理、篩選和分類資料的軟體和算法将被編寫出來。這一幕極有可能出現,但是我們還應預料到,這也不是“銀彈”。微軟、ibm和亞馬遜正在緻力于用人工進行軟體無法處理的資料标記工作――而這正是全球自動化和算法領域的三巨頭。

原文釋出時間為:2016年4月13日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。

繼續閱讀