Spark DataFrame

2021-08-04 13:46:29

DataFrame是一種不可變的分布式資料集，這種資料集被組織成指定的列，類似于關系資料庫中的表。SchemaRDD作為Apache Spark 1.0版本中的實驗性工作，它在Apache Spark 1.3版本中被命名為DataFrame。對于熟悉Python pandas DataFrame或者R DataFrame的讀者，Spark DataFrame是一個近似的概念，即允許使用者輕松地使用結構化資料（如資料表）。

通過在分布式資料集上施加結構，讓Spark使用者利用Spark SQL來查詢結構化的資料或使用Spark表達式方法（而不是lambda）。

通過建構資料，使得Apache Spark引擎——具體來說就是catalyst優化器（catalyst Optimizer）——顯著提高了Spark的查詢性能。Spark早期的API中（即RDD），由于JVM和Py4J之間的通信開銷，使用Python執行的查詢會明顯變慢。

使用Spark DataFrame，Python開發人員可以利用一個簡單的并且潛在地加快速度的抽象層。最初Spark中的Python速度慢的一個主要原因源自于Python子程序和JVM之間的通信層。對于python DataFrame的使用者，我們有一個在Scala DataFrame周圍的Python包裝器，Scala DataFrame避免了Python子程序/JVM的通信開銷。

Spark DataFrame

繼續閱讀

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

詳解STM32單片機的堆棧

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入