Spark将機器學習與GPU加速機制納入自身

2021-11-10 06:39:48

databricks公司通過簡化對gpu加速型機器學習方案的通路支援自家雲spark服務。

作為apache spark記憶體内大資料項目的支援與開發合作廠商，databricks公司已經對其自家apache spark雲實作方案進行兩輪支援更新，旨在讓更多it使用者享受其便利。

此次推出的新功能——即gpu加速與多套深度學習庫內建——在理論上能夠實作apache spark在任意位置的安裝工作。不過databricks方面表示，其版本目前仍處于調整階段，這是為了避免資源争用情況給功能的實際使用帶來複雜性影響。

apache spark本身并不具備開箱即用的gpu加速功能，且需要設定一套系統對此加以支援，這意味着使用者需要面對多種複雜元件。有鑒于此，databrick公司決定承擔起相關難題。

databricks方面還宣稱，其将降低節點間的資源争用數量，進而最大程度保證spark的運作能夠充分發揮gpu叢集的性能優勢。這一思路與麻省理工學院的milk庫看起來非常類似，後者同樣利用加速機制并發處理應用，旨在確定與記憶體相關的操作以批量方式進行，最終實作對系統緩存資源的最大化利用。databricks公司的設定能夠保證各項gpu操作之間不會互相導緻沖突乃至中斷。

另一項能夠顯著節約時間的舉措在于直接通路多種主流機器學習庫，這意味着spark将可作為資料源起效。其中包括databricks自家的tensorframes庫，其允許将tensorflow庫與spark相配合，同時實作gpu加速能力。

databricks 公司已經在推文中表示，其基礎設施能夠充分利用spark的自身優勢。其建立起免費級服務，用以吸引那些仍對深度使用spark抱有警惕心理的客戶，包括為其提供完整産品中的部分功能。根據infoworld網站此前釋出的評測報告，databricks的免費産品确實相當出色且易于上手。

不過市場競争仍然相當激烈，特别是考慮到databricks需要面對像微軟(擁有azure機器學習方案)、ibm以及amazon這樣的巨頭級對手。是以，其必須找到保持并擴大服務閱聽人規模的可行途徑，并專注于打造自身獨特的服務産品。除了添加機器學習與gpu加速等功能之外，databricks還需要在發展計劃中確定新特性能夠切實帶來便利——而非提升複雜程度。

本文作者：核子可樂

來源：51cto

Spark将機器學習與GPU加速機制納入自身

繼續閱讀

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

淺談企業活動中進行資料分析的重要性

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark