天天看点

Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark SQL案例实战(一)

作者:周志湖

放假了,终于能抽出时间更新博客了…….

本文通过将github上的spark项目git日志作为数据,对sparksql的内容进行详细介绍

数据获取命令如下:

格式化日志内容输出如下:

然后使用命令将sparktest.json文件上传到hdfs上

使用数据创建dataframe

查看其模式:

(1)显式前两行数据

(2)计算总提交次数

Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark SQL案例实战(一)

(3)按提交次数进行降序排序

使用下列语句将dataframe注册成表

(1)显示前2行数据

更多复杂的玩法,大家可以自己去尝试,这里给出的只是dataframe方法与临时表sql语句的用法差异,以便于有整体的认知。

继续阅读