Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark SQL案例實戰（一）

2021-11-07 11:57:03

作者：周志湖

放假了，終于能抽出時間更新部落格了…….

本文通過将github上的spark項目git日志作為資料，對sparksql的内容進行詳細介紹

資料擷取指令如下：

格式化日志内容輸出如下：

然後使用指令将sparktest.json檔案上傳到hdfs上

使用資料建立dataframe

檢視其模式：

（1）顯式前兩行資料

（2）計算總送出次數

（3）按送出次數進行降序排序

使用下列語句将dataframe注冊成表

（1）顯示前2行資料

更多複雜的玩法，大家可以自己去嘗試，這裡給出的隻是dataframe方法與臨時表sql語句的用法差異，以便于有整體的認知。

繼續閱讀