天天看點

2019年Apache Spark技術交流社群原創文章回顧

整理了這一年分享過的來自諸多專家的實踐經驗,希望2020年我們仍然能夠互相支援,壯大Spark社群。

感謝持續分享輸出優質内容的阿裡雲EMR團隊的王道遠,餘根茂,彭搏,鄭锴,夏立,林武康,李呈祥,吳威,殳鑫鑫,宋軍,關文選,孫大鵬,辛現銀,江宇,陳強,陳龍,陶克路,姚舜揚,周克勇,蘇昆輝;阿裡雲Tablestore存儲服務技術專家朱曉然,王卓然;Databricks研發總監李潇;資深資料架構師祝威廉;entobit技術總監鄧力;某遊戲公司資料平台負責人李偉;eBay軟體開發工程師李萬雪;同盾科技工程師梁世威;感謝圈内的技術大佬浪尖,過往記憶,AI前線,vivo技術,滴滴技術提供的幫助。(排名不分先後)

  1. 淺談 Spark 的多語言支援
  2. Apache Spark3.0什麼樣?一文讀懂Apache Spark最新技術發展與展望
  3. 基于Spark SQL實作對HDFS操作的實時監控報警
  4. 通過Spark SQL實時歸檔SLS資料
  5. 使用Spark SQL進行流式機器學習計算(上)
  6. 通過WebUI檢視Structured Streaming作業統計資訊
  7. 現代流式計算的基石:Google DataFlow
  8. Spark Streaming 架構在 5G 中的應用
  9. [是時候放棄 Spark Streaming, 轉向 Structured Streaming 了

    ](

    https://developer.aliyun.com/article/690913)
  10. 使用Spark Streaming SQL基于時間視窗進行資料統計
  11. Spark-StructuredStreaming checkpointLocation分析、優化耗時
  12. 使用Spark Streaming SQL進行PV/UV統計
  13. 通過Spark Streaming作業處理Kafka資料
  14. 通過Kafka Connect進行資料遷移
  15. Spark内置圖像資料源初探
  16. 【譯】Spark-Alchemy:HyperLogLog的使用介紹
  17. EMR Spark Runtime Filter性能優化
  18. EMR Spark Relational Cache如何支援雪花模型中的關聯比對
  19. EMR Spark Relational Cache的執行計劃重寫 1. EMR Spark Relational Cache 利用資料預組織加速查詢
  20. 使用Relational Cache加速EMR Spark資料分析
  21. 使用EMR Spark Relational Cache跨叢集同步資料
  22. 2019杭州雲栖大會回顧之Spark Relational Cache實作亞秒級響應的互動式分析
  23. [【譯】資料湖正在成為新的資料倉庫 https://developer.aliyun.com/article/708051)
  24. [深入剖析 Delta Lake:詳解事務日志 https://developer.aliyun.com/article/718093)
  25. Delta中繼資料解析
  26. 開源生态的新發展:Apache Spark 3.0、Koala和Delta Lake
  27. 【譯】Delta Lake 0.4.0 新特性示範:使用 Python API 就地轉換與處理 Delta Lake 表
  28. 漫談分布式計算架構
  29. 分布式快照算法: Chandy-Lamport
  30. 海量小檔案的的根源
  31. 是時候改變你數倉的增量同步方案了
  32. [【譯】Spark NLP使用入門 https://developer.aliyun.com/article/706952)
  33. 【譯】使用Spark SQL 運作大規模基因組工作流
  34. 【譯】用SQL統一所有:一種有效的、文法慣用的流和表管理方法
  35. 使用Apache Arrow助力PySpark資料處理
  36. Spark on Kubernetes原生支援淺析
  37. 列式存儲系列(一)C-Store
  38. 列式存儲系列(二): Vertica
  39. Spark on Kubernetes 的現狀與挑戰
  40. Koalas:讓 pandas 輕松切換 Apache Spark
  41. 使用spark-redis元件通路雲資料庫Redis
  42. 玩轉阿裡雲EMR三部曲-進階篇 互動式查詢及統一資料源
  43. HIVE優化淺談
  44. HIVE TopN shuffle 原理
  45. Kerberos使用OpenLDAP作為backend
  46. 在 Apache Spark 中利用 HyperLogLog 函數實作進階分析
  47. [【譯】Hadoop發生了什麼?我們該如何做? https://yq.aliyun.com/articles/718414)
  48. 實時 OLAP 系統 Druid
  49. Spark Operator淺析
  50. Spark Codegen淺析
  51. 深入分析Spark UDF的性能
  52. Spark整合Ray思路漫談
  53. Tablestore結合Spark的流批一體SQL實戰
  54. 助力雲上開源生态 - 阿裡雲開源大資料平台的發展
  55. JindoFS概述:雲原生的大資料計算存儲分離方案
  56. JindoFS解析 - 雲上大資料高性能資料湖存儲方案
  57. [EMR 打造高效雲原生資料分析引擎 https://developer.aliyun.com/article/725861)
  58. [ 5分鐘迅速搭建雲上Lambda大資料分析架構 https://developer.aliyun.com/article/721502)
  59. [如何在Spark中實作Count Distinct重聚合 https://developer.aliyun.com/article/723652)
  60. 基于 Spark 和 TensorFlow 的機器學習實踐
  61. 如何用Apache Spark和LightGBM建構機器學習模型來預測信用卡欺詐
  62. 【譯】Apache Spark 資料模組化之時間次元(一)
  63. Spark 小檔案合并優化實踐
  64. Apache Spark中國技術交流社群曆次直播回顧(持續更新)

阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區數個Spark技術同學每日線上答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!

2019年Apache Spark技術交流社群原創文章回顧

對開源大資料和感興趣的同學可以加小編微信(下圖二維碼,備注“進群”)進入技術交流微信群。

2019年Apache Spark技術交流社群原創文章回顧