dataframe讓spark具備了處理大規模結構化資料的能力,在比原有的rdd轉化方式易用的前提下,計算性能更還快了兩倍。這一個小小的api,隐含着spark希望大一統「大資料江湖」的野心和決心。dataframe像是一條聯結所有主流資料源并自動轉化為可并行處理格式的水渠,通過它spark能取悅大資料生态鍊上的所有玩家,無論是善用r的資料科學家,慣用sql的商業分析師,還是在意效率和實時性的統計工程師。
提供了将結構化資料為dataframe并注冊為表,使用sql查詢的例子
提供了從rmdb中讀取資料為dataframe的例子
提供了将資料寫入到rmdb中的例子