天天看點

開源大資料周刊-第102期

資訊

兩家大資料先驅Cloudera和Hortonworks今天宣布了它們所謂的相對平等的合并,聲稱将把兩家公司合并成一家年收入達7.2億美元的新實體。

網際網路之父 Tim Berners-Lee 爵士對今天的中心化 Web 非常不滿,他想要拯救網際網路,方法是重新去中心化。他正式宣布了新的開源去中心化平台 Solid ,源代碼釋出在 GitHub 上:

https://github.com/solid

Cloudera和Hortonworks合并的這項交易意味着Hadoop市場再也維持不了兩大競争對手。多年來,Hadoop一直就是大資料的代名詞,但市場和客戶需求已然發生了變化,本文分析了幾個大趨勢如何共同推動了這個變化。

假期期間有個公司上市了,首日大漲,市值接近50億美元,又掀起了一波造富運動,這個公司就是Elastic。作為後端的程式員,如果沒有聽說過Elastic及其産品Elasticsearch,實在是太out了,快來了解一下吧。

技術

Fink和Spark Streaming是目前比較主流的實時計算引擎,為了深入了解它們之間的差異,各自存在的優勢和劣勢,評估實時處理性能,找到其性能瓶頸并對其進行優化,我們對這兩個引擎做了一系列的測試,希望為後續實時計算架構選擇、性能調優提供資料參考。

本文翻譯自《Streaming System》最後一章《The Evolution of Large-Scale Data Processing》,簡要回顧了大資料系統發展的曆史軌迹,重點讨論了流處理系統。行文輕松活潑,内容通俗易懂,不妨一讀。

對于搭建大資料平台和資料湖,通常而言是作為ETL的基礎,廣泛地采集各種資料源存儲到Hadoop,來進行資料挖掘和分析。Uber新開源的Marmaray項目除了資料采集外,還包括資料分發,将Hadoop資料湖中的資料同步到各個線上存儲系統,滿足線上處理對性能和品質的更高要求。

近日,由 Apache Flink 創始人創立的 data Artisans 宣布開源 Streaming Ledger——一項激動人心的新技術,為基于流式架構的應用程式帶來了串行化 ACID 事務支援。在這篇文章中,我們将解釋為什麼串行化 ACID 事務對于現代企業來說是一個巨大的挑戰、data Artisans 如何找到解決方案以及如何将這項技術用于流式應用程式。

近年來Tensorflow和Kubernetes在AI和雲計算領域都是異彩紛呈,火熱得可以,放在一起又怎麼樣呢?本文是一篇關于Kuberflow:Kubernetes+Tensorflow入門級的介紹,了解一下?