天天看點

Intel 開源 BigDL,基于 Spark 的深度學習庫

近日,intel 開源了 bigdl,這是一個基于 apache spark 的分布式深度學習庫。使用 bigdl ,使用者可以将他們的深度學習應用程式作為标準的 spark 程式,它可以直接運作在現有的 spark 或 hadoop 叢集之上。

特性:

豐富的深度學習支援。bigdl 模仿 torch,提供對深度學習的全方位支援,包括數值計算(通過tensor)和高層次神經網絡。此外,使用者可以使用 bigdl 将預訓練的 caffe 或 torch 模型加載到 spark 程式中。

極其高的性能。為了達到高性能,bigdl 在每個 spark 任務中使用 intel mkl和多線程程式設計。是以,它比單節點 xeon 上的開箱即用的 caffe、torch 或 tensorflow 快幾個數量級。

有效地橫向擴充。 bigdl 可以通過利用 apache spark 以及高效實施同步 sgd, 全面減少 spark 上的通信,有效地向外擴充,以“大資料規模”執行資料分析。

使用場景:

你想要在在大資料雲(hadoop/spark)分析(存儲在如 hdfs、hbase、hive上的)海量資料。

你想向你的大資料(spark)程式和/或工作流添加深度學習功能(訓練或者預測)。

你想利用已有的 hadoop/spark 叢集來運作深度學習程式,然後可以與其他工作負載動态共享(例如,etl、資料倉庫、功能引擎、經典機器學習、圖像分析等)。