spark官方文檔:
http://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.Column
一、資料導入
建議預先下載下傳一個檔案拖拽上傳的軟體
yum -y installl lrzsz
1.在hadoop目錄下執行,從本地(windows)上傳
user.csv
檔案到虛拟機
2.檢視hdfs目錄
hdfs dfs -ls /
3.遞歸建立目錄
hdfs dfs -mkdir -p /events/users
4.上傳檔案到hdfs
hdfs dfs -put user.csv /events/users
5.在zeepelin中操作
(1)錄入資料
val users=spark.read.options(Map("inferSchema"->"true","delimiter"->"\t","header"->"true"))
.csv("/events/users/users.csv")
users.printSchema