天天看點

Spark修煉之道(進階篇)——Spark入門到精通:第十節 Spark SQL案例實戰(一)

作者:周志湖

放假了,終于能抽出時間更新部落格了…….

本文通過将github上的spark項目git日志作為資料,對sparksql的内容進行詳細介紹

資料擷取指令如下:

格式化日志内容輸出如下:

然後使用指令将sparktest.json檔案上傳到hdfs上

使用資料建立dataframe

檢視其模式:

(1)顯式前兩行資料

(2)計算總送出次數

Spark修煉之道(進階篇)——Spark入門到精通:第十節 Spark SQL案例實戰(一)

(3)按送出次數進行降序排序

使用下列語句将dataframe注冊成表

(1)顯示前2行資料

更多複雜的玩法,大家可以自己去嘗試,這裡給出的隻是dataframe方法與臨時表sql語句的用法差異,以便于有整體的認知。

繼續閱讀