作者:周志湖
放假了,终于能抽出时间更新博客了…….
本文通过将github上的spark项目git日志作为数据,对sparksql的内容进行详细介绍
数据获取命令如下:
格式化日志内容输出如下:
然后使用命令将sparktest.json文件上传到hdfs上
使用数据创建dataframe
查看其模式:
(1)显式前两行数据
(2)计算总提交次数

(3)按提交次数进行降序排序
使用下列语句将dataframe注册成表
(1)显示前2行数据
更多复杂的玩法,大家可以自己去尝试,这里给出的只是dataframe方法与临时表sql语句的用法差异,以便于有整体的认知。