spark推測執行的坑

2021-11-03 11:20:01

1、spark推測執行開啟

設定 spark.speculation=true即可

2、spark開啟推測執行的好處

推測執行是指對于一個Stage裡面運作慢的Task，會在其他節點的Executor上再次啟動這個task，如果其中一個Task執行個體運作成功則将這個最先完成的Task的計算結果作為最終結果，同時會幹掉其他Executor上運作的執行個體，進而加快運作速度

3、問題

我們的spark任務會将計算結果寫入kafka，再有logstash寫入es。

最近由于kafka叢集寫入慢，甚至寫不進去，spark任務直接卡住，為防止卡住的情況發生，加了推測執行，但發現跑出來的資料存在重複的情況。同一條資料寫了2次，排查發現是由于推測執行的問題，像這種講執行結果寫入kafka的場景，不适用推測執行，因為一個task雖然沒有執行完，但是一部分結果已經輸出了，啟動多個task就會造成資料重複，是以具體的配置還是要看應用的場景來做權衡

歡迎關注微信公衆号：大資料從業者

spark推測執行的坑

繼續閱讀

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark