作者:周志湖
放假了,終于能抽出時間更新部落格了…….
本文通過将github上的spark項目git日志作為資料,對sparksql的内容進行詳細介紹
資料擷取指令如下:
格式化日志内容輸出如下:
然後使用指令将sparktest.json檔案上傳到hdfs上
使用資料建立dataframe
檢視其模式:
(1)顯式前兩行資料
(2)計算總送出次數

(3)按送出次數進行降序排序
使用下列語句将dataframe注冊成表
(1)顯示前2行資料
更多複雜的玩法,大家可以自己去嘗試,這裡給出的隻是dataframe方法與臨時表sql語句的用法差異,以便于有整體的認知。