天天看點

開源大資料周刊-第106期

資訊

  • Apache Kylin v2.5.1 正式釋出 Apache Kylin社群于日前宣布:Apache Kylin v2.5.1 正式釋出!Apache Kylin 是一個開源的分布式分析引擎,提供 Hadoop 之上的 SQL 查詢接口及多元分析(OLAP)能力,支援對超大規模資料進行亞秒級查詢。Apache Kylin v2.5.1 是繼 v2.5.0 版本後的一次修複 bug 的更新,共修複了超過30 個 issues,包括缺陷修複和改進等。
  • VMware 收購 Heptio:它由 Kubernetes 兩位聯合創始人創辦 在近期于歐洲召開大型客戶會議期間,Vmware公司同時宣布了另一項收購決策,旨在幫助企業客戶建立并運作基于Kubernetes的容器化架構。而本輪收購的對象,正是位于西雅圖的初創企業Heptio。Heptio公司由Joe Beda與Craig McLuckie兩位曾在2014年幫助谷歌聯合建立Kubernetes項目的主力(當時的項目負責人共有三名)共同建立。
  • Databricks CTO Matei Zaharia專訪:分布式是機器學習的未來! 本文是在今年的 Spark 和人工智能歐洲峰會期間對 Matei Zaharia 的專訪,他是 Spark 的商業支援公司 Databricks 的 CTO 。采訪中,Zaharia 介紹了公司的整合分析目标,以及 Spark 和 MLFlow 架構的用例、程式設計語言、采納模式,提出分布式是機器學習的未來發展方向。
  • Apache Spark 2.4正式釋出以及新特性介紹 美國當地時間2018年11月2日,Apache Spark完成了2.x的第五次釋出:2.4.0版本。本文中詳細介紹了Apache Spark 2.4.0版本的新特性,包括Barrier Execution Mode、Scala 2.12支援、Pandas UDF增強、Image Data Source支援以及k8s內建增強等。

技術

  • Adaptive Execution如何讓Spark SQL更高效更好用? 本文所述内容均基于 2018 年 9 月 17 日 Spark 最新 Spark Release 2.3.1 版本,以及截止到 2018 年 10 月 21 日 Adaptive Execution 最新開發代碼。自動設定 Shuffle Partition 個數已進入 Spark Release 2.3.1 版本,動态調整執行計劃與處理資料傾斜尚未進入 Spark Release 2.3.1。
  • 揭解讀微軟開源MMLSpark:統一的大規模機器學習生态系統 目前,有很多深度學習架構支援與 Spark 內建,如 Tensorflow on Spark 等。然而,微軟開源的 MMLSpark 不僅內建了機器學習架構(CNTK 深度學習計算架構、LightGBM 機器學習架構),還可以将這些計算資源作為一種服務,以 HTTP 服務的形式對外提供給使用者。近日,微軟 MMLSpark 團隊發表了一篇論文對 MMLSpark 的架構進行詳細解讀,我們将基于這篇論文,就 MMLSpark 的相關元件的特性和一個利用 MMLSpark 進行物體識别的案例展開介紹。
  • Apache Pulsar在智聯招聘的實踐 -- 從消息隊列到基于Apache Pulsar的事件中心 本文介紹了以前的消息中間件在智聯招聘的應用和場景;以及對消息中間件選型的訴求;較長的描述了選型過程中的細緻思考。接着介紹了為什麼會選擇Pulsar,以及Pulsar中和智聯的場景比對的特性。最後提供了詳細的Pulsar落地實踐。
  • Dynamic Query Re-Planning Using QOOP 本文來自osdi'18大會錄取論文。現代資料處理叢集是高度動态的,無論是在并發運作的作業數量還是資源使用方面。為了提高性能,業界最近的工作重點都是優化叢集排程程式和作業的查詢計劃程式,即選擇正确的查詢執行計劃(QEP)。但是,由于現有解決方案在整個執行過程中使用固定的QEP,是以無法根據資源變化調整QEP,這通常會導緻性能低下。本文主張動态查詢重新規劃,其中我們在執行期間重新評估和重新規劃作業的QEP。論文中提出在三個元件(the query planner, the execution engine and the cluster scheduler)之間重新配置設定責任以簡化其設計,而不是将更多複雜性推向排程程式或查詢計劃程式。在這中設計方案下,論文分析表明,即使在對抗性資源變化的情況下,用于重新規劃和執行的貪婪算法以及簡單的最大最小公平排程程式也可以提供可證明的競争行為。最後在Apache Hive和Tez上編寫了算法原型,通過大量實驗表明,與最先進的替代方案相比,本文的設計可以提供1.47倍的中值性能提升。

繼續閱讀