天天看點

Bluemix中的Apache Spark資料分析服務入門

Spark是一個基于記憶體計算的開源的叢集計算系統,目的是讓資料分析更加快速。Spark非常小巧玲珑,由加州伯克利大學AMP實驗室的Matei為主的小團隊所開發。使用的語言是Scala,項目的core部分的代碼隻有63個Scala檔案,非常短小精悍。

Spark 是一種與 Hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以優化疊代工作負載。

Spark 是在 Scala 語言中實作的,它将 Scala 用作其應用程式架構。與 Hadoop 不同,Spark 和 Scala 能夠緊密內建,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式資料集。

盡管建立 Spark 是為了支援分布式資料集上的疊代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoop 檔案系統中并行運作。通過名為Mesos的第三方叢集架構可以支援此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來建構大型的、低延遲的資料分析應用程式。

按以下步驟建立一個Apache Spark 服務的執行個體

1、登入 Bluemix ,進入儀表闆頁面,單擊“資料和分析”下的“使用資料”。

Bluemix中的Apache Spark資料分析服務入門

2、在左側的标簽中選擇“Analytics”,然後點選下面的“New Instance”;

Bluemix中的Apache Spark資料分析服務入門

3、了解價格與服務概述,建立服務執行個體;

檢視不同地區的價格,但我沒有找到中國,難道中國還沒有伺服器?

Bluemix中的Apache Spark資料分析服務入門

點選 Terms 可以檢視服務描述

Bluemix中的Apache Spark資料分析服務入門

填寫執行個體名稱,然後點選“Create Instance”開始建立服務執行個體

Bluemix中的Apache Spark資料分析服務入門

4、執行個體建立成功後會傳回到執行個體建立的引導頁面,在Service下可以看到剛剛建立的Apache Spark服務,在Analytics的Instance下也可以看到剛剛建立的Apache Spark服務;

Bluemix中的Apache Spark資料分析服務入門

管理功能包括:

1、重命名、删除服務;

2、點選服務,可以進入服務功能的管理界面;

Bluemix中的Apache Spark資料分析服務入門

3、監視服務的使用情況,檢視服務的使用曆史記錄;

4、使用筆記本電腦和Spark工作

5、運作Spark應用程式

6、檢視和管理連接配接的應用程式或服務

單擊“建立連接配接”可以将 spark test 連接配接到某個現有應用程式或相容服務,這時你之前建立的應用都會列出來。

我還真是被搞暈了,“連接配接”這個管理功能從不同的地方進入管理頁面有的有,有的沒有!

7、服務憑證,可以檢視,添加憑證,或複制憑證應用到你的應用中,憑證内容類似如下:

要使用筆記本工作和開發,需要先建立筆記本;

筆記本電腦提供了一個互動式的計算環境中執行的資料來自不同來源的分析任務,讓你在一個地方相結合的代碼執行,豐富的文字,數學,情節和豐富的媒體。

1、進入儀表盤頁面,單擊使用資料;

2、在打開的頁面左側選擇:Analytics

3、單擊“NEW NOTEBOOK”

Bluemix中的Apache Spark資料分析服務入門

4、我們可以先從筆記本樣本示例來浏覽和學習,單擊“Samples”标簽,選擇“Precipitation Analysis”,單擊“Create NOTEBOOK”按鈕

Bluemix中的Apache Spark資料分析服務入門

5、閱讀并探索這個樣本Python筆記本了解什麼是可用的,以及如何加載資料,并使用它。

Bluemix中的Apache Spark資料分析服務入門

參考:

<a target="_blank" href="https://console.ng.bluemix.net/docs/services/AnalyticsforApacheSpark/index.html#index">Apache Spark資料分析入門</a>

<a target="_blank" href="https://developer.ibm.com/clouddataservices/docs/spark/">Apache Spark 學習中心</a>

<a target="_blank" href="https://developer.ibm.com/clouddataservices/docs/spark/get-started/get-started-in-bluemix/">Get Started in Bluemix</a>