Spark on Yarn 學習(一)

2013-12-13 10:29:00

最近看到明風的關于資料挖掘平台下實用Spark和Yarn來做推薦的PPT,感覺很贊,現在基于大資料和快速計算方面技術的發展很快,随着Apache基金會上釋出的一個個項目,感覺真的新技術将會不斷出現在大家的面前.

作為技術發燒友,作為一個看客,來圍觀下,不過從PPT中列出來的技術來看,未來的發展趨勢還是說是有的,而且還是很有發展前景的. 現在Spark和Yarn也就釋出2年多的時間,随着社群力量的跟上,不斷的将之前的項目都放到一個更好的資源架構的整合上來實作.特别是放到記憶體上來實作,在速度和效率上還是确實有差別于之前的其他技術.是以作為巨頭之一的淘寶,就跟上的技術發展的趨勢了.但是作為小公司而言,沒有這樣的大規模的機器部署的情況下,如何用利用好這些技術呢?

下面是PPT中記錄的一些筆記和插圖.算是對整個架構有一個出不的了解,接下來有時間就努力的去嘗試下.

插上翅膀的大象基于Spark on Yarn的淘寶資料挖掘平台

為什麼選擇Spark On Yarn Spark On Yarn的原理和架構淘寶在Spark On Yarn上做的工作基于Spark On Yarn的資料挖掘平台架構

案例性能

Hadoop在資料挖掘遇到的問題多次疊代

中介資料的序列化和反序列化

簡單的MR模式 vs 複雜的機器學習算法

OO程式設計 vs 函數式風格

圖計算能力

Why Spark

RDD

記憶體計算

快速疊代

DAG

Scala

FP程式設計

Actor程式設計

并發能力

Hadoop

MapReduce

HDFS通路

Spark的生态圈 Shark(Hive),Streaming(Storm),Mllib(Mahout),Graphx(GraphLab)

Spark (MapReduce)

Local Standalone Mesos Yarn HDFS HBASE

Yarn版本0.23.7 目前淘寶部署了 5000 * 2 的架構

Spark On Yarn 的架構

Spark的生态圈

Spark On Yarn的實作流程

推薦系統的具體架構

總結粗略的了解下技術架構,接下來有時間的話,深入的實際嘗試下,搭建系統跑下svm等,體會下這個系統!

Spark on Yarn 學習(一)

繼續閱讀

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

虛拟主機會影響到SEO嗎

用Matlab搞計算機視覺是怎樣的體驗？

在weka中內建自己的算法

解讀2008年網絡技術熱詞之雲計算

《eWEEK》：09年5大科技發展趨勢雲計算居首

雲計算面試題及答案，雲計算主要就業崗位

雲計算面試題——mysql/存儲引擎/備份

雲計算面試題——檔案/權限/分區/軟體包管理