Spark問答合集及解決方法,轉自阿裡雲開發者問答,大家有問題可以移步阿裡雲問答子產品: https://developer.aliyun.com/ask/
- 如何使用spark将kafka主題中的writeStream資料寫入hdfs? https://yq.aliyun.com/ask/493211
- 當Spark在S3上讀取大資料集時,在“停機時間”期間發生了什麼? https://yq.aliyun.com/ask/493212
- 從Redshift讀入Spark Dataframe(Spark-Redshift子產品) https://yq.aliyun.com/ask/493215
- 在初始化spark上下文後,在運作時更改pyspark的hadoop配置中的aws憑據 https://yq.aliyun.com/ask/493217
- Window.rowsBetween - 僅考慮滿足特定條件的行(例如,不為null) https://yq.aliyun.com/ask/493220
- spark的RDD内容直接用saveAsTextFile儲存到hdfs時會出現中文亂碼現象,但在控制台用foreach列印該RDD資料顯示是正常的,該怎麼解決呢? https://yq.aliyun.com/ask/494418
- 請問一下如何能檢視spark struct streaming記憶體使用情況呢? https://yq.aliyun.com/ask/494417
- 使用spark 2.3 structed streaming 時 checkpoint 頻繁在HDFS寫小檔案,塊數到達百萬級别 ,這個怎麼優化下? https://yq.aliyun.com/ask/494415
- 請教大家一個問題,spark stream連kafka,在web頁面的stream标簽,顯示好多batch處于queued狀态,這些batch是已經把資料從kafka讀取進rdd,等待處理,還是還沒有從kafka讀取數進rdd? https://yq.aliyun.com/ask/493702
-
為什麼我使用 dropDuplicates()函數報錯
Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.(Ljava/lang/String;II)V ?
- 請教一下,我hive中資料大小為16g,通過importtsv生成了hfile 檔案,導入到hbase中了,資料變成130多g,還有什麼更好的辦法嗎? https://yq.aliyun.com/ask/493698
- jdbc 連接配接spark thrift server 如何擷取日志? https://yq.aliyun.com/ask/493582
- Spark如何從一行中僅提取Json資料? https://yq.aliyun.com/ask/493581
- pyspark - 在json流資料中找到max和min usign createDataFrame https://yq.aliyun.com/ask/493234
- 如何計算和擷取Spark Dataframe中唯一ID的值總和? https://yq.aliyun.com/ask/493231
- 如何将csv目錄加載到hdfs作為parquet? https://yq.aliyun.com/ask/493224
- 無法使用Spark在Datastax上初始化圖形 https://yq.aliyun.com/ask/493222
- 使用PySpark計算每個視窗的使用者數 https://yq.aliyun.com/ask/493221
- sql語句不支援delete操作,如果我想執行delete操作該怎麼辦? https://yq.aliyun.com/ask/494420
- spark streaming 和 kafka ,打成jar包後((相關第三方依賴也在裡面)),放到叢集上總是報StringDecoder 找不到class https://yq.aliyun.com/ask/494421
- json字元串中有重名但大小寫不同的key,使用play.api.libs.json.Json.parse解析json沒有報錯,但是spark-sql使用org.openx.data.jsonserde.JsonSerDe時,會自動将key轉為小寫,然後putOnce函數報錯Duplicate key https://yq.aliyun.com/ask/494423
- spark DataFrame寫入HDFS怎麼壓縮? https://yq.aliyun.com/ask/495552
- 使用Spark On Hive時,動态的将資料插入到Hive中,但是在Hive的資料表下會有很多檔案,這個可以怎麼設定一下呢? https://yq.aliyun.com/ask/495927