天天看點

别被忽悠了, 6個問題揭露誰是大資料僞磚家

生火這一技術的由來在過去的一百萬年間都很有趣,但是黑夜的結束,冬季的溫暖以及炖出來的第一罐湯才真正改變了一切東西!

我最近讀了一些“大資料”方面的文章,發現了這個最新的科技泡沫中迷惑但是完全可預測的趨勢。由于大資料很熱門、時髦、并且性感,表面上看很有趣。每個人都加入進來,躍躍欲試,好像他們是專家一樣。如果這讓你開始覺得像是知識分子在facebook上關于國際政治的演講一樣,這絕非意外。在大資料的讨論中摻雜的專業知識和經驗,與facebook上關于政治的空話一樣。

我想我可能會幫你判斷自己的大資料專家到底是不是真正的專家。看看下面的這些言論對你來講是不是很熟悉呢。

1. 他們談論的都是”大“和”資料“,而不是 “新問題”

看上去好像整個科技行業都沉浸在 “大資料”之中。所有人都在讨論它,剛剛成立的公司如雨後春筍般出現,linkedin上99.9%的履歷都包括”資料科學家“這個詞語,然而人們并不清楚這個詞語真正的意義是什麼。

确實,大多數的公司在并沒有太大的商業價值的硬體和軟體上投入了大量的錢。這并不奇怪。”大資料“對于發生在我們身邊的變革來講是個糟糕的名字。這與”大“無關,與”資料“也無關,而是與新問題有關,接觸海量的資料的友善性更促使了新問題的産生。去年我聽過klout網站(一個評價影響力的網站)的技術主任做的一個報告。他提到,他們的資料庫有1.3萬億行的資料,就像是他們那裡有那麼多人一樣;也智能如此吧。

如果你現在問的問題還是以前-----有沒有更多的資料這種老問題,那并不是在做“大資料”,而是在做”大的商務智能”,這個詞語本身就是沖突。

2.他們談論的是技術,而非商業

有一天有個人問我,“hadoop 對資料歸檔有什麼影響”。 hadoop是一種工具,大資料是一個商業現象。很多人認為hadoop是一種解決方法,大資料僅僅是在檔案中蹲坐着的資料。錯誤的資訊和銷售宣傳使人們迷失其中。

很容易這些人就陷入了速度和容量、特性與功能的讨論中。這項技術是由工程驅動的,沒有什麼比填的滿滿的的規格表更能引起我們這些工程師興奮了。如果你是一個謹慎的cfo;世界上沒有比一個招人嫉妒的軟體架構師更昂貴的了。

很多企業現在問了在大資料中投入了這麼多的資金,也要問了,“價值在哪兒?”好吧,如果你不将自己的項目聚焦到對商業問題的了解和解決上,那麼你的項目所研究的出來的結果不大有可能是解決商業問題的方案。

你可能會建成世界上最大的雲服務商,但是除了留給自己一點自誇的東西,誰又關心這個呢?從一個商業問題開始,弄清楚怎樣将問題資料化,然後利用科技找到解決方法。

别被忽悠了, 6個問題揭露誰是大資料僞磚家

3.他們關心大資料更内在的東西,而不是行動

我合作過的很多機構将資料分析作為結果,完全忽視了大資料的重點:行動。你可以構造出世界上最大的雲結構,将其填滿最幹淨的資料,用最好的數學模型模拟,産生令人驚奇的見解。如果這些工作做完了之後,你還沒有改變公司的行為方式,你的産品和服務可以幫助你的顧客做些什麼呢,或者你是怎樣關懷周圍的世界的呢。終歸到底,你會徹底失敗。

大資料不能僅僅是新的見解,它必須是新的行動和新的結果。我并不是lhc的癡迷者,這個人類曆史上最大的科學實驗,最近确認了上帝粒子(higgs粒子)的存在。然而,如果higgs的知識沒有賦予這個粒子一些意義,我們都将繼續質疑在lhc上花費的數十億美金是否值得。

洞察力很重要,但是行動才是養家掙錢的來源。如果你的“大資料專家”在提出新見解的路上樂此不疲,而不是想法設法創造新的商業成效。那你是在經營一個科學實驗了。

4.他們讨論的是結論,而非聯系

如果你已經從花費在大資料的努力中得到分析性結果了,你的“大資料科學家”在談論的是“結論”,這一波的大資料專家很多并不了解聯系和誘因之間的細微差别。兩者看上去是一樣的,然而涉及到行動時,這差別可大了去了。聯系意味着在各事物之間有着存在着表面上的關系,預示着某個特定的輸入也許會引起某些特定的結果。但是,在“聯系”中不存在确定性。誘因就不一樣了

隻要記住,近似永遠都是近似。

這對喜歡絕對的商業人士來說是當頭棒喝;至少他們想要看上去是絕對的過程。好吧,在分析學中沒有這樣的事情。你的資料可能代表着一堆事實,但是分析學和統計學就如同劇院一樣。你看到的不一定總是你得到的。确實,許多“資料學家”更傾向于是“資料操作工”。為支援某個議會給出政策上可接受的結果。

聯系不能成為誘因。任何告訴你找到誘因的大資料專家應該被馬上質疑直到其他方面證明他沒有騙人。

别被忽悠了, 6個問題揭露誰是大資料僞磚家

5.他們讨論的是資料品質,而不是資料有效性

我看到花費在資料品質問題上的筆墨越來越多。你在用好的資料嗎?你怎麼知道,你怎樣淨化資料的呢?這些都是在資料庫和業務智能聯合論壇上的問題。資料品質是一個問題,在那麼多的垃圾流進流出後。但是關注淨化資料隻是資料庫的思維模式中的一部分。除此之外,還有一個價值數百億美金的行業。他們關注提取-轉化-上傳這個整體,有這種思維模式的商人掙紮在将資料與現實世界聯系起來的路上。

盡管資料品質重要,資料有效性更重要;我究竟有沒有回答我所提出的問題的有效資料呢?通常,答案會是“沒有”。除非你問的是一個你們公司已經問了好幾十年的老問題,這樣的話,又何必問呢?

如果你問的是新資料的新問題,你怎樣直到那些資料是好的,哪些又是壞的呢?你又将哪些資料定義為“幹淨”的,哪些又是“髒”的呢?直到你開始研究這些由新的分析産生的新結果,進而才能發現這些結果是好的還是壞的,你怎麼可能在輸入資料的時候定義哪些是幹淨的,哪些是髒的?

再一次,這是老套的跳出資料庫/業務智能行業思維的方式,而且與新開發出來的大資料的領域不合适。許多分析都需要有效的資料,但是在判斷資料是否有效前就問這資料是不是幹淨的是無論怎樣都沒有意義的。

6.他們聽上去跟其他讨論大資料的人說的一樣

我們被埋沒在大資料的噪聲中。确實,是需要一些人來研究大資料的真正意義。更多的,我聽到的是同一個課題被一再的重複;隻是被誤解、被引錯,要不就是在推動産品或服務的名義下變态發展。

這令人感到羞恥,因為大資料的背後是社會行為,而且将會一直這樣。如果你的大資料專家不談論這些資料背後的社會,行為模式,政治和經濟的話,那你就錯失良機了。這個技術很有趣,但是也隻是一個找到更有意義的結論的方法。

生火這一技術的由來在過去的一百萬年間都很有趣,但是黑夜的結束,冬季的溫暖以及炖出來的第一罐湯才是真正改變了一切東西!

如果你的“大資料專家”不能明白這個,那他們永遠也不能明白了,你也是。

别被忽悠了, 6個問題揭露誰是大資料僞磚家

克裡斯托弗·蘇達克:

  賓夕法尼亞州立大學機械工程學學士,美國塔夫脫大學法學學士。賓夕法尼亞大學沃頓商學院進階技術管理學碩士,美國維拉諾瓦大學資訊安全學碩士。

  商業資料系統與業務模式的設計者和創新者。大學畢業後,進入世界最大的國防工業承包商洛克希德·馬丁空間系統公司總部,擔任空間系統工程師和火箭專家。離開該公司後,先後于bdm 資訊技術公司和瑪氏糖果公司擔任進階戰略顧問,後又在埃森哲、西門子、戴爾和花旗銀行等領先企業擔任進階戰略顧問和技術架構師。他的服務對象包括美國商務部、世界銀行、國際貨币基金組織、摩根士丹利、百事可樂、三星、沃爾瑪等。

原文釋出時間為:2015-07-24

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号