天天看點

資料準備是大資料分析的無名英雄

資料準備是大資料分析的無名英雄

随着企業花越來越多的時間來分析資料,清理和準備資料的解決方案将會變得更有價值。

現在大資料是熱門話題,你在任何地方與任何人交談很難不提到大資料。事實上,大資料的術語有點被過度使用,它對不同的人意味着不同的東西,但所有這些定義都有一個共同點,那就是資料!

上面我們說大資料依賴于資料,這似乎很明顯,但大資料分析的成功需要的不僅僅是原始資料,還需要好的高品質資料。是以,更準确的說法應該是,大資料的成功需要準備好的資料。對于分析,有句古老的格言,“進來是垃圾,出去也是垃圾”,這意味着如果你把大量參差不齊的資料放到分析解決方案,你将會得到不好的結果。

資料的清理和準備曆來都是漫長的艱巨的耗時的過程。當筆者還在yankee group公司時,他們遷移crm系統,在遷移工作之前,該公司花了一年時間來清理現有系統中的記錄資料,以確定不會遷移不好的資料。雖然他們做了這麼多工作,仍然有很多不良資訊被遷移過去。

最近,筆者看到一家被稱為paxata的公司,該公司提供的解決方案可以進行所謂的“自助服務自适應資料準備”。在分析或營運報告工作之前,該技術可以整合、清理和形成資料。市面上很多現有的商業智能産品聲稱可以簡化分析過程,但事實是,大多數資料科學家和資料分析師花費大量時間來為分析準備資料。鑒于此,筆者認為,大多數企業甯願聘請高薪人才找出資料的含義(+微信關注網絡世界),而不是清理資料。

paxata提供資料整個生命周期的準備,包括探索、清理、更換、形成和釋出資料以進行分析。該産品還允許不同的資料團隊共享相同的資料集,讓不同的團隊可以同時編輯和通路多個裝置的資訊。該産品還是一個管了解決方案,它會追蹤項目内的每個步驟,并有完全的重放功能來審查已經完成的更改。

paxata的使用者可以提高對大型資料集的分析生産率,同時最小化資料蔓延的危險。該産品既可作為雲服務—確定資料準備的靈活性,也可以作為内部部署的解決方案,它可以整合到hadoop以更快擷取價值。

正如上文所述,大資料現在是一個熱門話題,但企業和it上司者需要明白,分析糟糕的資料意味着糟糕的分析結果,可能會造成錯誤的商業決策。正因為如此,筆者希望看到資料準備技術會開始像大資料一樣熱門。

本文作者:佚名

來源:51cto

繼續閱讀