Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark SQL案例实战（一）

2021-11-07 11:57:03

作者：周志湖

放假了，终于能抽出时间更新博客了…….

本文通过将github上的spark项目git日志作为数据，对sparksql的内容进行详细介绍

数据获取命令如下：

格式化日志内容输出如下：

然后使用命令将sparktest.json文件上传到hdfs上

使用数据创建dataframe

查看其模式：

（1）显式前两行数据

（2）计算总提交次数

（3）按提交次数进行降序排序

使用下列语句将dataframe注册成表

（1）显示前2行数据

更多复杂的玩法，大家可以自己去尝试，这里给出的只是dataframe方法与临时表sql语句的用法差异，以便于有整体的认知。

继续阅读