<b>1.9 小結</b>
<b></b>
本章介紹了apache spark所有的基礎知識,這也是所有想把apache spark應用于機器學習實際項目的從業者必須了解掌握的。我們重點探讨了apache spark計算,并涉及一些最重要的機器學習元件,以便把apache spark和機器學習關聯起來,讓開展機器學習項目的讀者做好充分準備。
第一,我們作了spark總體概述,還讨論了spark優點以及面向機器學習的spark計算模型。
第二,我們回顧了機器學習算法,spark的mllib庫和其他機器學習庫。
第三,讨論了spark rdd的核心創新和dataframe,以及用于r語言的spark dataframe api。
第四,我們回顧了一些機器學習架構,通過案例具體讨論了機器學習的rm4e架構,進一步讨論了spark機器學習計算架構。
第五,我們讨論了機器學習的工作流,并舉例說明,然後介紹了spark pipeline模型及其api。
最後,我們研究了用于機器學習的notebook方法,回顧了r語言notebook markdown标簽格式,然後讨論了databricks提供的spark notebook,通過應用spark notebook,我們可以便捷地為機器學習實踐融合上述所有的spark元素。
結合上述讨論的spark基礎知識,讀者可以着手準備使用apache spark開展機器學習項目。為此,我們将在下一章講述spark資料準備工作,然後在第3章讨論第一個實際生活中的機器學習項目。