、 collect傳回一個數組,包含DataFrame中的全部Rows
collectAsList傳回一個Java List,包含DataFrame中包含的全部Rows
傳回DataFrame的rows的個數
傳回第一個row
不帶參數的head方法,傳回DataFrame的第一個Row。指定參數n時,則傳回前那個Rows
不帶參數的show,顯示前20個Rows,指定個數n,則顯示n個
傳回DataFrame前n個Rows
将DataFrame緩存到記憶體中
以數組的形式傳回DataFrame的全部列名
以數組的形式傳回DataFrame的所有列名及其對應的資料類型
用于調試的目的,不帶參數時,僅将DataFrame的實體計劃列印到控制台上;當指定參數extended為true時,列印所有計劃到控制台上,包括實體計劃、邏輯計劃
如果collect與take方法在本地運作時,傳回true
以樹形結構将DataFrame的Schema資訊列印到控制台
将DataFrame注冊為指定名字的臨時表
傳回DataFrame的Schema資訊,對應類型為StructType
不帶參數的toDF傳回它本身,帶字元串數組的參數時,傳回新的DataFrame,該DataFrame重命名了各列名
将DataFrame提供不需要經過groups就可以執行的統計操作
根據指定列名傳回DataFrame的列,類型為Column
使用别名建立DataFrame
傳回對DataFrame的Rows去重後的DataFrame
傳回DataFrame,包含目前Frame的Rows,同時這些Rows不在另一個Frame中。相當于兩個DataFrame做減法
傳回一個新的DataFrame,其中原來的每一列被指定的函數擴充成零行或多行
按參數指定的sql表達式的條件過濾DataFrame
使用一個或多個指定的列隊DataFrame進行分組,以便對他們執行聚合操作
取兩個DataFrame中同時存在的Rows,傳回DataFrame
傳回DataFrame的前n個Rows
按指定的一列或多列進行排序,分别支援字元串或Column的參數清單
按指定因子對DataFrame的Rows進行抽樣,如果指定withReplacement為true時,使用指定的種子或随機的種子進行替換。
從DataFrame中選取指定的列,傳回DataFrame,指定列有三種方式,可以用列名字元串的重複參數,或Column重複參數及列名表達式的多個參數指定
聯合調用者和參數這兩個DataFrame的Rows
對DataFrame列進行操作,withColumn增加列資訊,withColumnRenamed對列進行重命名
儲存到指定路徑下
儲存到資料源為parquet的指定路徑下
對DataFrame中Rows進行處理,并且處理結果
map将DataFrame的Row按指定的函數參數映射成R執行個體,并傳回以R為元素的類型的RDD執行個體。mapPartitions類似
傳回一個DataFrame,該DataFrame按指定numPartitions對原DataFrame進行重分區
把DataFrame的内容用包含json字元串的RDD傳回
傳回DataFrame的查詢執行語句,包含邏輯計劃和實體計劃
當神已無能為力,那便是魔渡衆生