天天看點

開源大資料周刊-2018年08月10日 第96期資訊技術

資訊

新版E-MapReduce工作流管理功能正式釋出上線,工作流排程和編排是大資料開發的重要場景。此次更新新增作業DAG執行,作業臨時查詢等功能,拖拽編輯工作流節點等功能,在作業并行化縮短執行時間,提升了易用性。歡迎了解更多E-MapReduce産品

詳情

7月外媒披露了最新的Gartner全球雲存儲魔力象限,全球前四依然是亞馬遜AWS、微軟Azure、谷歌GCP和阿裡雲,與去年相比最大變化是,谷歌和阿裡雲各自躍升了一個象限,分别跻身上司者和挑戰者象限,這是中國雲計算廠商首次進入Gartner雲存儲挑戰者象限。

TensorFlow 1.10 預建構二進制檔案是針對 NCCL 2.2 建構的,并且在二進制安裝中不再包含 NCCL。使用多個 GPU 和 NCCL 的需要将 NCCL 更新到 2.2。

技術

餓了麼每天處理的資料量60TB資料,400個計算節點。文章詳細介紹了Storm,SparkStreaming,Flink 3種流式計算架構在餓了麼的應用優劣勢。

EMR叢集中作業寫資料到OSS時,需要先将資料緩存在本地,然後再一次性上傳到OSS中。本文介紹了堆外記憶體緩存政策加速資料寫OSS的方法。

Weld 是斯坦福大學 DAWN 實驗室的一個開源項目,在 CIDR 2017 論文中描述了它的初始原型。Weld 用于對結合了資料科學庫和函數的現有工作負載進行優化,而無需使用者修改代碼。我們在 VLDB 2018 論文中提出了 Weld 的自适應優化器,并得出了一些可喜的結果:通過在 Weld IR 上自動應用轉換可以實作工作負載數量級的加速。消融研究表明,循環融合等優化具有非常大的影響。本文主要介紹如何使用 Weld 的自适應優化器進行資料分析的端到端優化。

近日,英偉達發表了一篇大規模語言模組化的論文,他們使用 128 塊 GPU 在 4 小時内使得 mLSTM 可以收斂,值得注意的是,他們使用的 Amazon Reviews 資料集包含 40GB 的文本,這在以前通常需要花費數周的時間進行訓練。這樣的大規模語言模型能作為一種預訓練模型遷移大量的語言知識,也就是說如果将其應用到機器翻譯、機器閱讀了解和情感分析等 NLP 任務,資料需求量和計算量都能得到大幅度的降低。

繼續閱讀