天天看點

EMR:一體化Hadoop雲上工作平台

Hadoop生态體系日臻完善,如何利用Hadoop生态各項技術與阿裡雲更好的服務于企業。EMR最新釋出的工作流管理、彈性伸縮、異構計算多項功能,更好的助力使用者在阿裡雲上利用Hadoop、Spark生态體系解決企業大資料問題。

EMR資料開發工作台

EMR資料開發工作台內建了作業編輯、工作編輯和臨時查詢等功能,能更好的滿足使用者雲上離線資料處理、資料分析和探索挖掘等場景。主要特點在于:

  1. 支援多樣化的大資料作業,支援shell,Hive,MapReduce,Spark,SparkStreaming等多種離線,實時類型作業,企業資料開發人員可線上編輯,調試。
  2. 更低的資料開發門檻,使用者通過拖拽式的大資料開發完成資料的接入,相較于Oozie、Azkaban等開源解決方案,營運人員,資料科學家可以更直覺的進行大資料開發。
  3. 互動式資料探索,為使用者提供互動式Hive、SparkSQL查詢、分析,快速提取海量資料價值。

叢集彈性伸縮

EMR彈性伸縮能更好的縫合公有雲計算資源彈性和Hadoop生态體系開放的兩大優勢,實作計算資源根據叢集繁忙程度彈性伸縮,幫助企業降低Hadoop資源的使用成本。

  1. 定時擴縮容叢集,使用者設定在制定時間對叢集進行擴容、縮容,滿足日報、周報、月報等需臨時追加計算資源的場景。
  2. 支援多種ECS執行個體,受ECS庫存影響,彈性伸縮會由于庫存不足造成執行失敗,為提升伸縮動作執行成功機率,彈性伸縮可同時支援多種ECS執行個體,且能一次性把盡量多的庫存資源全部買出,保證叢集資源。

EMR Learning

深度學習、AI以成為目前炙手可熱的詞彙,EMR Learning将深度學習和開源大資料技術深度結合,提供一體化的大資料+深度學習服務。利用一個叢集,建構企業資料湖,同時進行機器學習和深度學習。

  1. 支援ECS CPU+GPU的異構計算,通過Hadoop YARN排程叢集GPU資源
  2. 支援Horvod,TensorFlow,SparkML等計算架構,一個叢集内進行機器學習和深度學習。
  3. 可采用PS、MPI等資料通信模式,解決深度學習的通信瓶頸
  4. 支援Docker,Muti-Env多運作環境隔離

了解更多大資料家族産品詳情,歡迎點選:

https://et.aliyun.com/bigdatarelease

點選觀看大資料家族産品釋出會:

https://yq.aliyun.com/webinar/play/508

【阿裡雲新品釋出】開啟新一代資料智能開發之路:

https://yq.aliyun.com/roundtable/325525

繼續閱讀