天天看點

Spark将機器學習與GPU加速機制納入自身

databricks公司通過簡化對gpu加速型機器學習方案的通路支援自家雲spark服務。

Spark将機器學習與GPU加速機制納入自身

作為apache spark記憶體内大資料項目的支援與開發合作廠商,databricks公司已經對其自家apache spark雲實作方案進行兩輪支援更新,旨在讓更多it使用者享受其便利。

此次推出的新功能——即gpu加速與多套深度學習庫內建——在理論上能夠實作apache spark在任意位置的安裝工作。不過databricks方面表示,其版本目前仍處于調整階段,這是為了避免資源争用情況給功能的實際使用帶來複雜性影響。

apache spark本身并不具備開箱即用的gpu加速功能,且需要設定一套系統對此加以支援,這意味着使用者需要面對多種複雜元件。有鑒于此,databrick公司決定承擔起相關難題。

databricks方面還宣稱,其将降低節點間的資源争用數量,進而最大程度保證spark的運作能夠充分發揮gpu叢集的性能優勢。這一思路與麻省理工學院的milk庫看起來非常類似,後者同樣利用加速機制并發處理應用,旨在確定與記憶體相關的操作以批量方式進行,最終實作對系統緩存資源的最大化利用。databricks公司的設定能夠保證各項gpu操作之間不會互相導緻沖突乃至中斷。

另一項能夠顯著節約時間的舉措在于直接通路多種主流機器學習庫,這意味着spark将可作為資料源起效。其中包括databricks自家的tensorframes庫,其允許将tensorflow庫與spark相配合,同時實作gpu加速能力。

databricks 公司已經在推文中表示,其基礎設施能夠充分利用spark的自身優勢。其建立起免費級服務,用以吸引那些仍對深度使用spark抱有警惕心理的客戶,包括為其提供完整産品中的部分功能。根據infoworld網站此前釋出的評測報告,databricks的免費産品确實相當出色且易于上手。

不過市場競争仍然相當激烈,特别是考慮到databricks需要面對像微軟(擁有azure機器學習方案)、ibm以及amazon這樣的巨頭級對手。是以,其必須找到保持并擴大服務閱聽人規模的可行途徑,并專注于打造自身獨特的服務産品。除了添加機器學習與gpu加速等功能之外,databricks還需要在發展計劃中確定新特性能夠切實帶來便利——而非提升複雜程度。

本文作者:核子可樂

來源:51cto