建立企業級品質資料湖 Spark沒那麼簡單

2021-11-09 19:26:12

随着spark受到越來越多的關注，許多企業正在盡力跟上這一開源平台快節奏的變化和釋出頻率。資料倉庫研究院（tdwi）資料管理研究負責人philip russom博士表示：“許多企業正在嘗試部署apache spark，通常會結合資料湖使用，希望能發揮其在流資料、查詢和分析上的優勢。但使用者很快意識到，spark并不容易使用，而且資料湖所需規劃與設計超出使用者想象。在這種情況下，使用者需要求助于外部顧問和管理服務提供商，他們需要具備為各種不同類型的客戶順利部署apache spark和資料湖的可靠經驗。”

大資料分析服務供應商teradata天睿公司最近宣布旗下think big公司已經成功将spark融入建立企業級品質資料湖和分析應用的開發架構。

目前，客戶可在搭載“通用硬體”的一般hadoop環境中部署雲端apache spark使用資料湖。客戶還可在teradata hadoop專用平台上使用。該就緒式企業級平台功能強大，專為運作企業級大資料工作負載進行預置和優化。

think big公司正在為部署spark開發可複制的服務包，包括在提供資料湖和管理服務時，将spark增加為執行引擎。think big還将通過旗下教育訓練分支機構think big大資料學院（think big academy）為企業客戶提供一系列全新spark教育訓練課程。這些教育訓練課程由經驗豐富的講師講解，面向經理、開發人員和管理者教育訓練如何使用spark及機器學習、圖形、流、查詢等各種spark子產品。

think big資料科學團隊還将開源spark python應用程式接口（api）的分布式k-modes叢集源程式。這些程式将為客戶細分和客戶流失分析提升分類資料叢集性能。使用者可通路think big公司的github頁面，擷取該程式代碼及think big其它開源項目。

think big公司總裁ron bodkin表示：“think big咨詢業務正從美洲地區迅速拓展至歐洲和中國，因為首次接觸資料湖時，企業對正确使用spark和hadoop所需專業技術、經驗和方法的需求正在爆炸性增長。部署spark應成為企業資訊與分析戰略中的重要組成部分。我們依據經驗提供相關的使用案例，提出适當的問題，并提防部署中應注意的雷區。我們了解商業使用者的期望和技術需求，能幫助客戶創造真實的商業價值。而我們的spark客戶已在全管道消費個性化、高科技制造業實時故障檢測等領域付諸實踐。”

早在大資料熱潮興起之前，think big就已成為全球首家專注大資料服務的上司企業，緻力于運用新興技術實施分析解決方案。現在，think big依托完善的流程、健全的工具和經驗豐富的大資料技術專家，在平台和應用支援方面為hadoop提供管理服務，以經濟的方式管理、監控并維護hadoop平台。think big公司通過完善測試的轉換流程，進行每一次部署安排，通過評估并提升客戶的生産支援、開發和維持團隊，使部署卓有成效。

本文轉自d1net（轉載）

建立企業級品質資料湖 Spark沒那麼簡單

繼續閱讀

27. Remove Element(清單)題目代碼

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

User Defined Hadoop DataType

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Ambari介紹和架構原理

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

win10本地scala和spark安裝安裝scala安裝spark

在python中建立excel并寫入