天天看點

開源大資料周刊-第100期

資訊

  • 領英開源TonY:建構在Hadoop YARN上的TensorFlow架構 領英在 YARN 上建構了一個 TensorFlow 架構 TonY 并将其開源。本文介紹了 TonY 的内部細節、領英實作并用來在 Hadoop 上擴充分布式 TensorFlow 的功能以及實驗結果。
  • Databricks:96%的企業在執行AI項目時面臨着資料相關的問題 Databricks釋出了美國和歐洲大型公司的AI難題的調查結果。隻有1/3的人工智能項目取得了成功,更重要的是企業從概念轉向生産需要六個多月。這些挑戰背後的主要原因是96%的企業面臨着資料相關的問題,如孤島和不一緻的資料集。80%的企業引發了重大的組織摩擦,如資料科學家和資料工程師之間缺乏協作。90%的受訪者表示在整個機器學習生命周期中統一資料科學和資料工程的方法将克服AI難題。
  • Spark、Flink、CarbonData技術實踐最佳案例解析 作為Spark Structured Streaming最核心的開發人員、Databricks工程師,Tathagata Das(以下簡稱“TD”)在開場演講中介紹了Structured Streaming的基本概念,及其在存儲、自動流化、容錯、性能等方面的特性,在事件時間的處理機制,最後帶來了一些實際應用場景。

技術

  • 如何建構一個企業的大資料分析平台 大資料分析處理平台就是整合目前主流的各種具有不同側重點的大資料處理分析架構和工具,實作對資料的挖掘和分析,一個大資料分析平台涉及到的元件衆多,如何将其有機地結合起來,完成海量資料的挖掘是一項複雜的工作。在搭建大資料分析平台之前,要先明确業務需求場景以及使用者的需求,通過大資料分析平台,想要得到哪些有價值的資訊,需要接入的資料有哪些,明确基于場景業務需求的大資料平台要具備的基本的功能,來決定平台搭建過程中使用的大資料處理工具和架構。
  • 30PB資料1年内遷移到Spark,eBay的經驗有何可借鑒之處? eBay 使用 Teradata 已經有二十年的曆史,這個數倉系統中積累了 60PB 資料和上萬張核心表,他們支撐着 eBay 最核心的商務邏輯和站點功能。從今年開始,eBay 開始将這個龐大的數倉由 Teradata 向 Spark 做遷移,使用 eBay 自己開發的工具,遷移過程中 90% 的工作都可以由自動化完成。與此同時,研究人員通過優化 Spark 架構,節省了一半的記憶體。
  • 比拼生态和未來,Spark和Flink哪家強? 在前一篇文章《Spark 比拼 Flink:下一代大資料計算引擎之争,誰主沉浮?》中,作者對 Spark 和 Flink 的引擎做了對比。但對于使用者來說,引擎并不是考慮資料産品的唯一方面。開發和運維相關的工具和環境、技術支援、社群等等,對能不能在引擎上面做出東西來都很重要,這些構成了一個産品的生态。可以說,引擎決定了功能和性能的極限,而生态能讓這些能力真正發揮出作用。。
  • 喜大普奔!TensorFlow終于支援A卡了 近日,Google 宣布推出适用于 ROCm GPU 的 TensorFlow v1.8,其中包括 Radeon Instinct MI25。對于 AMD 正在進行的深度學習加速工作而言,這是一座重大的裡程碑。 ROCm 即 Radeon 開放生态系統 (Radeon Open Ecosystem),是我們在 Linux 上進行 GPU 計算的開源軟體基礎。而 TensorFlow 實作則使用了 MIOpen,這是一個适用于深度學習的高度優化 GPU 例程庫。