整理了這一年分享過的來自諸多專家的實踐經驗,希望2020年我們仍然能夠互相支援,壯大Spark社群。
福利:轉發本文到朋友圈,集贊30個截圖發送至小編(小編微信見文末),送Spark社群定制毛線帽一頂,限量10頂先到先得。
感謝持續分享輸出優質内容的阿裡雲EMR團隊的王道遠,餘根茂,彭搏,鄭锴,夏立,林武康,李呈祥,吳威,殳鑫鑫,宋軍,關文選,孫大鵬,辛現銀,江宇,陳強,陳龍,陶克路,姚舜揚,周克勇,蘇昆輝;阿裡雲Tablestore存儲服務技術專家朱曉然,王卓然;Databricks研發總監李潇;資深資料架構師祝威廉;entobit技術總監鄧力;某遊戲公司資料平台負責人李偉;eBay軟體開發工程師李萬雪;同盾科技工程師梁世威;感謝圈内的技術大佬浪尖,過往記憶,AI前線,vivo技術,滴滴技術提供的幫助。(排名不分先後)
- 淺談 Spark 的多語言支援
- Apache Spark3.0什麼樣?一文讀懂Apache Spark最新技術發展與展望
- 基于Spark SQL實作對HDFS操作的實時監控報警
- 通過Spark SQL實時歸檔SLS資料
- 使用Spark SQL進行流式機器學習計算(上)
- 通過WebUI檢視Structured Streaming作業統計資訊
- 現代流式計算的基石:Google DataFlow
- Spark Streaming 架構在 5G 中的應用
-
[是時候放棄 Spark Streaming, 轉向 Structured Streaming 了
](
https://developer.aliyun.com/article/690913) - 使用Spark Streaming SQL基于時間視窗進行資料統計
- Spark-StructuredStreaming checkpointLocation分析、優化耗時
- 使用Spark Streaming SQL進行PV/UV統計
- 通過Spark Streaming作業處理Kafka資料
- 通過Kafka Connect進行資料遷移
- Spark内置圖像資料源初探
- 【譯】Spark-Alchemy:HyperLogLog的使用介紹
- EMR Spark Runtime Filter性能優化
- EMR Spark Relational Cache如何支援雪花模型中的關聯比對
- EMR Spark Relational Cache的執行計劃重寫 1. EMR Spark Relational Cache 利用資料預組織加速查詢
- 使用Relational Cache加速EMR Spark資料分析
- 使用EMR Spark Relational Cache跨叢集同步資料
- 2019杭州雲栖大會回顧之Spark Relational Cache實作亞秒級響應的互動式分析
- [【譯】資料湖正在成為新的資料倉庫 https://developer.aliyun.com/article/708051)
- [深入剖析 Delta Lake:詳解事務日志 https://developer.aliyun.com/article/718093)
- Delta中繼資料解析
- 開源生态的新發展:Apache Spark 3.0、Koala和Delta Lake
- 【譯】Delta Lake 0.4.0 新特性示範:使用 Python API 就地轉換與處理 Delta Lake 表
- 漫談分布式計算架構
- 分布式快照算法: Chandy-Lamport
- 海量小檔案的的根源
- 是時候改變你數倉的增量同步方案了
- [【譯】Spark NLP使用入門 https://developer.aliyun.com/article/706952)
- 【譯】使用Spark SQL 運作大規模基因組工作流
- 【譯】用SQL統一所有:一種有效的、文法慣用的流和表管理方法
- 使用Apache Arrow助力PySpark資料處理
- Spark on Kubernetes原生支援淺析
- 列式存儲系列(一)C-Store
- 列式存儲系列(二): Vertica
- Spark on Kubernetes 的現狀與挑戰
- Koalas:讓 pandas 輕松切換 Apache Spark
- 使用spark-redis元件通路雲資料庫Redis
- 玩轉阿裡雲EMR三部曲-進階篇 互動式查詢及統一資料源
- HIVE優化淺談
- HIVE TopN shuffle 原理
- Kerberos使用OpenLDAP作為backend
- 在 Apache Spark 中利用 HyperLogLog 函數實作進階分析
- [【譯】Hadoop發生了什麼?我們該如何做? https://yq.aliyun.com/articles/718414)
- 實時 OLAP 系統 Druid
- Spark Operator淺析
- Spark Codegen淺析
- 深入分析Spark UDF的性能
- Spark整合Ray思路漫談
- Tablestore結合Spark的流批一體SQL實戰
- 助力雲上開源生态 - 阿裡雲開源大資料平台的發展
- JindoFS概述:雲原生的大資料計算存儲分離方案
- JindoFS解析 - 雲上大資料高性能資料湖存儲方案
- [EMR 打造高效雲原生資料分析引擎 https://developer.aliyun.com/article/725861)
- [ 5分鐘迅速搭建雲上Lambda大資料分析架構 https://developer.aliyun.com/article/721502)
- [如何在Spark中實作Count Distinct重聚合 https://developer.aliyun.com/article/723652)
- 基于 Spark 和 TensorFlow 的機器學習實踐
- 如何用Apache Spark和LightGBM建構機器學習模型來預測信用卡欺詐
- 【譯】Apache Spark 資料模組化之時間次元(一)
- Spark 小檔案合并優化實踐
- Apache Spark中國技術交流社群曆次直播回顧(持續更新)
阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區數個Spark技術同學每日線上答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!

對開源大資料和感興趣的同學可以加小編微信(下圖二維碼,備注“進群”)進入技術交流微信群。