天天看點

如何使用zeppelin進行資料分析

spark官方文檔:

​​​http://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.Column​​

一、資料導入

建議預先下載下傳一個檔案拖拽上傳的軟體

yum -y installl lrzsz      

1.在hadoop目錄下執行,從本地(windows)上傳​

​user.csv​

​檔案到虛拟機

2.檢視hdfs目錄

hdfs dfs -ls /      

3.遞歸建立目錄

hdfs dfs -mkdir -p /events/users      

4.上傳檔案到hdfs

hdfs dfs -put user.csv /events/users      

5.在zeepelin中操作

(1)錄入資料

val users=spark.read.options(Map("inferSchema"->"true","delimiter"->"\t","header"->"true"))
  .csv("/events/users/users.csv")      
如何使用zeppelin進行資料分析
users.printSchema      

繼續閱讀