開源大資料周刊-第80期

2018-02-01 23:50:00

<a href="https://mp.weixin.qq.com/s/TqiSWj_Oig78CzP7G7jKKQ">奇虎360正式開源其高性能KV存儲平台Zeppelin</a>

<a href="https://mp.weixin.qq.com/s/CqauLY3pvJ4TwLhUAghT7w">Go官網回歸中國</a>

日益壯大的中國 Go 語言開發者們現在可以通過 golang.google.cn 通路 golang.org 上的内容，擷取官方文檔、技術檔案以及二進制文檔。

<a href="https://mp.weixin.qq.com/s/gp9MTKWbgHQ7b7QR5pNSnA">專訪朱詩雄：Apache Spark中的全新流式引擎Structured Streaming</a>

Apache Spark 在 2016 年的時候啟動了 Structured Streaming 項目，一個基于 Spark SQL 的全新流計算引擎 Structured Streaming，讓使用者像編寫批處理程式一樣簡單地編寫高性能的流處理程式。經過一年多的改進和完善，目前 Structured Streaming 已經在 Databricks 内部和客戶廣泛使用，InfoQ 采訪了 Structured Streaming 的核心開發朱詩雄來具體了解這個項目。

<a href="https://mp.weixin.qq.com/s/T9VRPGCCt3IPlbUBzsb63A">如何為Kafka叢集選擇合适的Topics/Partitions數量</a>

這是許多kafka使用者經常會問到的一個問題。本文的目的是介紹與本問題相關的一些重要決策因素，并提供一些簡單的計算公式。

<a href="https://www.iteblog.com/archives/2317.html">機器學習中常用的距離公式</a>

在計算機人工智能領域，距離(distance)、相似度(similarity)是經常出現的基本概念，它們在自然語言處理、計算機視覺等子領域有重要的應用，而這些概念又大多源于數學領域的度量(metric)、測度(measure)等概念。

<a href="https://www.iteblog.com/archives/2329.html">使用Python編寫Hive UDF</a>

Hive 内置為我們提供了大量的常用函數用于日常的分析，但是總有些情況這些函數還是無法滿足我們的需求；值得高興的是，Hive 允許使用者自定義一些函數，用于擴充 HiveQL 的功能，這類函數叫做 UDF（使用者自定義函數）。使用 Java 編寫 UDF 是最常見的方法，但是本文介紹的是如何使用 Python 來編寫 Hive 的 UDF 函數。

<a href="https://mp.weixin.qq.com/s/EQQoZp4qhLIt19PAIFhHtA">隻用200行Go代碼寫一個自己的區塊鍊</a>

“用不到200行 Go 代碼就能實作一個自己的區塊鍊！” 聽起來有意思嗎？有什麼能比開發一個自己的區塊鍊更好的學習實踐方法呢？那我們就一起來實踐下。

開源大資料周刊-第80期

繼續閱讀

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark