天天看點

Pentaho 7.0更新:資料準備和分析兩不誤

pentaho公司的軟體定位一直是做整合資料內建和分析,不過在即将釋出的7.0平台中,該公司提供了用于加速和提升資料準備流程的功能。

更新後的分析、內建、資料準備工具于11月釋出,支援使用者在處理和準備過程中的任何環節直覺地檢查資料。這樣資料科學家、資料工程師和業務分析師都可以使用圖表、圖形和其它可視化元件來動态檢查資料,發現并提前解決潛在的資料品質問題,而無需等到完成整個分析工作才能發現。

例如,他們可以看到整合兩個表的資料結果對于支援準确分析來說,是否缺少了很多數值;或者在抽取、轉換和加載(etl)內建處理過程中應用回歸分析技術檢查是否産生錯誤資訊。pentaho 7.0還支援it團隊釋出預定義資料源給業務使用者,這樣可以加速資料準備階段的協作。

pentaho公司表示,在運作過程中,通過準備流程以協作的方式可視化檢查和評估資料,這樣的功能可以縮短資料科學家和其它使用者為分析用途準備資料的時間。當然,資料工程師不大可能會對資料品質問題建立流程(減少了錯誤機率)。(2015年日立集團有限公司收購了pentaho公司)

pentaho 7.0還提供了新功能,支援與spark sql內建,友善etl開發人員和資料分析師在apache spark叢集中使用标準sql的變體查詢資料。還有幾種其它類似功能也是專為處理大資料環境的資料而設計,包括支援kafka消息隊列系統、avro和parquet檔案格式。

david menninger是ventana研究公司的一名技術分析師,他說pentaho的新功能混合了分析和資料準備兩方面的工作,這可能意味着資料管理的一種發展趨勢。

越來越多的企業都希望可以把資料準備和分析任務更緊密地整合到一起,這樣整合過程就更能以自服務的形式完成。menninger說:“自服務資料準備成為了流行趨勢。實際上,它需要與分析過程緊密內建。”

現在,menninger認為pentaho公司走在了市場的前沿,但是他預計其它廠商會很快跟風,推出比較類似的功能。

paxata公司就是這樣一個自服務資料工具供應商,該公司才初創幾年,緻力于拓展軟體實作更進階功能。規劃增加的功能包括:引導客戶做必要的資料轉換;通過機器學習技術幫助使用者在語義層面更好地了解資料。

paxata公司位于美國加州redwood市,該公司上個月邁出了第一步,釋出了同名軟體的更新版本,新版本利用了paxata連接配接技術,可以從不同的hadoop叢集、nosql資料庫和其它系統中抽取整合資料。paxata公司首席産品官nenshad bardoliwalla表示,該公司計劃以季度為周期增加更多功能,不過全面打造設想的平台還有很長的路要走。

本文轉自d1net(轉載)