【大資料】-- Spark 建立 tmp 目錄的原因

2022-11-03 14:31:55

一、背景

資料流向：Spark 讀取 ODPS 資料，然後寫入阿裡雲 OSS。

現象：在使用阿裡雲 dataworks 排程 Spark 任務時，發現Spark task 全部結束5分鐘以後，整體的 job 沒有顯示 SUCCESSED。于是去檢視程式對應的 OSS 輸出目錄，發現 _temporary 目錄下的檔案正在複制到目标目錄，而不是 move 操作，導緻花費時間過多。

二、問題

三、分析

兩階段過程是在使用檔案系統時確定最終結果的一緻性的最簡單方法之一。
您必須記住，每個執行器線程都寫出其結果集獨立于其他線程，并且可以在不同的時刻執行寫入，甚至可以重用相同的資源集。在 Spark 寫資料的那一刻，他無法确定所有寫入是否會成功。

如果失敗，可以通過删除臨時目錄來復原更改。
如果成功，可以通過移動臨時目錄來送出更改。

該模型的另一個好處是在進行中的寫入和最終輸出之間的差別。是以，它可以輕松地與簡單的工作流管理工具內建，而無需具有單獨的狀态管理或其他同步機制。
此模型簡單，可靠，适用于設計的檔案系統。遺憾的是，它與對象存儲沒有良好的對象存儲，這不支援移動，隻能複制。

【大資料】-- Spark 建立 tmp 目錄的原因

一、背景

二、問題

三、分析

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark