天天看點

開源大資料周刊-第80期

<a href="https://mp.weixin.qq.com/s/TqiSWj_Oig78CzP7G7jKKQ">奇虎360正式開源其高性能KV存儲平台Zeppelin</a>

<a href="https://mp.weixin.qq.com/s/CqauLY3pvJ4TwLhUAghT7w">Go官網回歸中國</a>

日益壯大的中國 Go 語言開發者們現在可以通過 golang.google.cn 通路 golang.org 上的内容,擷取官方文檔、技術檔案以及二進制文檔。

<a href="https://mp.weixin.qq.com/s/gp9MTKWbgHQ7b7QR5pNSnA">專訪朱詩雄:Apache Spark中的全新流式引擎Structured Streaming</a>

Apache Spark 在 2016 年的時候啟動了 Structured Streaming 項目,一個基于 Spark SQL 的全新流計算引擎 Structured Streaming,讓使用者像編寫批處理程式一樣簡單地編寫高性能的流處理程式。經過一年多的改進和完善,目前 Structured Streaming 已經在 Databricks 内部和客戶廣泛使用,InfoQ 采訪了 Structured Streaming 的核心開發朱詩雄來具體了解這個項目。

<a href="https://mp.weixin.qq.com/s/T9VRPGCCt3IPlbUBzsb63A">如何為Kafka叢集選擇合适的Topics/Partitions數量</a>

這是許多kafka使用者經常會問到的一個問題。本文的目的是介紹與本問題相關的一些重要決策因素,并提供一些簡單的計算公式。

<a href="https://www.iteblog.com/archives/2317.html">機器學習中常用的距離公式</a>

在計算機人工智能領域,距離(distance)、相似度(similarity)是經常出現的基本概念,它們在自然語言處理、計算機視覺等子領域有重要的應用,而這些概念又大多源于數學領域的度量(metric)、測度(measure)等概念。

<a href="https://www.iteblog.com/archives/2329.html">使用Python編寫Hive UDF</a>

Hive 内置為我們提供了大量的常用函數用于日常的分析,但是總有些情況這些函數還是無法滿足我們的需求;值得高興的是,Hive 允許使用者自定義一些函數,用于擴充 HiveQL 的功能,這類函數叫做 UDF(使用者自定義函數)。使用 Java 編寫 UDF 是最常見的方法,但是本文介紹的是如何使用 Python 來編寫 Hive 的 UDF 函數。

<a href="https://mp.weixin.qq.com/s/EQQoZp4qhLIt19PAIFhHtA">隻用200行Go代碼寫一個自己的區塊鍊</a>

“用不到200行 Go 代碼就能實作一個自己的區塊鍊!” 聽起來有意思嗎?有什麼能比開發一個自己的區塊鍊更好的學習實踐方法呢?那我們就一起來實踐下。

開源大資料周刊-第80期

版權聲明:資訊都是來自網際網路,如果侵權,請聯系我們,我們負責删除。