天天看點

建立企業級品質資料湖 Spark沒那麼簡單

随着spark受到越來越多的關注,許多企業正在盡力跟上這一開源平台快節奏的變化和釋出頻率。資料倉庫研究院(tdwi)資料管理研究負責人philip russom博士表示:“許多企業正在嘗試部署apache spark,通常會結合資料湖使用,希望能發揮其在流資料、查詢和分析上的優勢。但使用者很快意識到,spark并不容易使用,而且資料湖所需規劃與設計超出使用者想象。在這種情況下,使用者需要求助于外部顧問和管理服務提供商,他們需要具備為各種不同類型的客戶順利部署apache spark和資料湖的可靠經驗。”

大資料分析服務供應商teradata天睿公司最近宣布旗下think big公司已經成功将spark融入建立企業級品質資料湖和分析應用的開發架構。

目前,客戶可在搭載“通用硬體”的一般hadoop環境中部署雲端apache spark使用資料湖。客戶還可在teradata hadoop專用平台上使用。該就緒式企業級平台功能強大,專為運作企業級大資料工作負載進行預置和優化。

think big公司正在為部署spark開發可複制的服務包,包括在提供資料湖和管理服務時,将spark增加為執行引擎。think big還将通過旗下教育訓練分支機構think big大資料學院(think big academy)為企業客戶提供一系列全新spark教育訓練課程。這些教育訓練課程由經驗豐富的講師講解,面向經理、開發人員和管理者教育訓練如何使用spark及機器學習、圖形、流、查詢等各種spark子產品。

think big資料科學團隊還将開源spark python應用程式接口(api)的分布式k-modes叢集源程式。這些程式将為客戶細分和客戶流失分析提升分類資料叢集性能。使用者可通路think big公司的github頁面,擷取該程式代碼及think big其它開源項目。

think big公司總裁ron bodkin表示:“think big咨詢業務正從美洲地區迅速拓展至歐洲和中國,因為首次接觸資料湖時,企業對正确使用spark和hadoop所需專業技術、經驗和方法的需求正在爆炸性增長。部署spark應成為企業資訊與分析戰略中的重要組成部分。我們依據經驗提供相關的使用案例,提出适當的問題,并提防部署中應注意的雷區。我們了解商業使用者的期望和技術需求,能幫助客戶創造真實的商業價值。而我們的spark客戶已在全管道消費個性化、高科技制造業實時故障檢測等領域付諸實踐。”

早在大資料熱潮興起之前,think big就已成為全球首家專注大資料服務的上司企業,緻力于運用新興技術實施分析解決方案。現在,think big依托完善的流程、健全的工具和經驗豐富的大資料技術專家,在平台和應用支援方面為hadoop提供管理服務,以經濟的方式管理、監控并維護hadoop平台。think big公司通過完善測試的轉換流程,進行每一次部署安排,通過評估并提升客戶的生産支援、開發和維持團隊,使部署卓有成效。

本文轉自d1net(轉載)