導語
“大資料” 三個字其實是個marketing語言,從技術角度看,包含範圍很廣,計算、存儲、網絡都涉及,知識點廣、學習難度高。
本期會給大家奉獻上精彩的:kylin、spark、DL、Hbase、OceanBase、gossip、MongoDB。全是幹貨,希望大家喜歡!!!
#大資料和雲計算技術社群#希望通過堅持定期分享能幫助同學在大資料學習道路上盡一份微網誌之力。相信長期堅持認真閱讀周報的同學,在技術的道路上一定會日益精進!感謝編輯們的長期堅持!也請同學們繼續打賞,支援社群,支援編輯們持續奉獻高品質知識!
#大資料和雲計算技術社群#長期招募有興趣參與社群編輯和營運的同學,歡迎掃描文末二維碼聯系(參與社群工作,收獲知識和進步,還有紅包哦)。
特别提醒,文末有驚喜!
以下是正文,限于衆編輯水準有限,不保證大家都喜歡。(如果連結不能點開 請用二維碼 謝謝)
1文本去重
本文主要介紹了基于 Apache HBase 與 Google SimHash 等多種算法共同實作的一套支援百億級文本資料相似度計算與快速去重系統的設計與實作。
https://mp.weixin.qq.com/s/UZmksFBTKFzF4jrXGnw2fg
2Hbase
圖的重要應用場景,好友推薦
https://mp.weixin.qq.com/s/AUn8qEaih9w--WbfxU46cQ
3OceanBase
OceanBase是一個通用的分布式的關系型資料庫,有很多獨特的特點。比如資料庫的多租戶、高可用、極緻彈性伸縮能力。如果把OceanBase當作單庫使用,就沒有把OceanBase的分布式優勢發揮到極緻。
本文主要分享一個基于分布式架構的應用把OceanBase資料庫的分布式優勢發揮到極緻所需要了解的OceanBase基礎,這也是了解螞蟻金服的基于OceanBase建構的三地五中心異地多活架構的基礎。
https://mp.weixin.qq.com/s/a2dNOrdWzlxdniqYxcclqg
4kylin
eBay 大資料平台團隊的馬剛老師,為大家分享了 Kylin 的實時流式 OLAP 分析的新功能;特别提醒,該功能目前已經開源,會在未來的版本中釋出給社群試用!
https://mp.weixin.qq.com/s/M8E7C9f1_ymshCNviriJyw
5HBase
本文主要講解HBase的Region的拆分和合并機制
https://mp.weixin.qq.com/s/mg6c_h38efILWo_HAWy9zQ
6MongoDB
本文講述了MongoDB全局事務計劃,之前MongoDB 4.0版本隻是在單節點支援事務,MongoDB下一階段将支援分片叢集上事務。
http://www.mongoing.com/archives/24829
7Spark
本文講解 Spark Streaming 兩種計算模型:無狀态和狀态計算模型,總結了 Spark Streaming 的應用場景與優缺點。
https://mp.weixin.qq.com/s/ZVf8mCXfhFC1uEyR-GGuoQ
8Spark
在使用 Spark 進行計算時,我們經常會碰到作業 (Job) Out Of Memory(OOM) 的情況,而且很大一部分情況是發生在 Shuffle 階段。那麼在 Spark Shuffle 中具體是哪些地方會使用比較多的記憶體而有可能導緻 OOM 呢? 為此,本文将圍繞以上問題梳理 Spark 記憶體管理和 Shuffle 過程中與記憶體使用相關的知識;然後,簡要分析下在 Spark Shuffle 中有可能導緻 OOM 的原因
https://mp.weixin.qq.com/s/YpcdjAfxDfDQ6EA5GzB57w
9gossip
gossip 協定(gossip protocol)又稱 epidemic 協定(epidemic protocol),是基于流行病傳播方式的節點或者程序之間資訊交換的協定,在分布式系統中被廣泛使用,比如我們可以使用 gossip 協定來確定網絡中所有節點的資料一樣。
https://www.iteblog.com/archives/2505.html
10DL
文章解讀的是一篇發表于 AAAI 2019 的 paper,文章提出了一種 R-DAD 的方法來對 RCNN 系列的目标檢測方法進行改進。
https://mp.weixin.qq.com/s/-G47vOGx2iNQCarYRAiNPg
11開心一刻
檔案的命名,講道理應該以英文為主,但是英語又不好,是以隻好用拼音,最痛苦的應該算是那些英語又不好,又想秀一下的程式員,一半英語一半拼音,如mainFangFa~~~你說看了糟心不糟心。
緻謝:
周蓬勃、王在道、孫亞飛、馮藝帆、陳少軍、鄧開表、張少華、薛述強、劉彬、劉超、廖程鵬、董言、呂西金、朱潔、藍随、黃文輝、郭飛