DataFrame和DataSets概述

2023-06-28 05:23:02

産生背景：

它不是SparkSQl提出的，而是早在R，Pandas語言就有了

想提供閱聽人廣的API

RDD和MapReduce程式設計門檻高

概念：

A DataFrame is a Dataset organized into named column（以列（列名，列的類型，列值）的形式構成分布式資料集，按照列賦予不同名稱

A Dataset is a distributed collection of data（RDD with schema）

It is conceptually equivalent to a table in a relational database or a data frame in R/Python, but with richer optimizations under the hood

An abstraction for selecting，filtering，aggregation，and plotting structured data

Previous SchemaRDD（SPark<1.3）

DataFrame對比RDD：

RDD：

Java/scala==>jvm

python=>python runtime（執行效率不一定）

DataFrame:

Java/scala/python==>Logic Plan（執行效率一樣）

可以處理結構體，map，數組

友善實用

DataFrame常用API：

DataFrame與RDD互操作之一：反射方式

使用反射來推斷包含了特定資料類型的RDD的中繼資料

使用DataFrameAPI或者Sql方式程式設計

DataFrame與RDD互操作之一：程式設計方式

DataFrame與RDD互操作比較：

反射：case class 前提：事先需要知道你的字段，字段類型

程式設計：Row 如果第一種情況不能滿足你的要求（事先不知道列）

檢視内置函數：spark.sql("show functions").show;

DataSets概念：

In the Scala API,

DataFrame

is simply a type alias of

Dataset[Row]

  DataFrame和DataSets概述

DataFrame和DataSets概述

繼續閱讀

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

GridView終極用法(一)

win10本地scala和spark安裝安裝scala安裝spark