雲栖号快速入門: 【點選檢視更多雲産品快速入門】 不知道怎麼入門?這裡分分鐘解決新手入門等基礎問題,可快速完成産品配置操作!
産品概述
DataHub基本介紹
阿裡雲流資料處理平台DataHub是流式資料(Streaming Data)的處理平台,提供對流式資料的釋出 (Publish),訂閱 (Subscribe)和分發功能,讓您可以輕松建構基于流式資料的分析和應用。DataHub服務可以對各種移動裝置,應用軟體,網站服務,傳感器等産生的大量流式資料進行持續不斷的采集,存儲和處理。使用者可以編寫應用程式或者使用流計算引擎來處理寫入到DataHub的流式資料比如實時web通路日志、應用日志、各種事件等,并産出各種實時的資料處理結果比如實時圖表、報警資訊、實時統計等。
DataHub服務基于阿裡雲自研的飛天平台,具有高可用,低延遲,高可擴充,高吞吐的特點。DataHub與阿裡雲流計算引擎StreamCompute無縫連接配接,使用者可以輕松使用SQL進行流資料分析。
DataHub服務也提供分發流式資料到各種雲産品的功能,目前支援分發到MaxCompute(原ODPS),OSS等。
系統整體功能圖

産品優勢
高吞吐
最高支援單shard每日8000萬
Record級别的寫入量。
實時性
通過 DataHub ,您可以實時的收集各種方式生成的資料并進行實時的處理,對您的業務産生快速的響應。
易用性
- DataHub 提供豐富的SDK包,包括C++, JAVA , Pyhon, Ruby, Go等語言。
- DataHub服務也提供Restful API規範,您可以用自己的方式實作通路接口。
- 除了SDK以外,DataHub 還提供一些常用的用戶端插件,包括:Fluentd,LogStash,Flume等。您可以使用這些用戶端工具往 DataHub 裡面寫入流式資料。
- DataHub 同時支援強Schema的結構化資料(建立Tuple類型的Topic)和無類型的非結構化資料(建立Blob類型的Topic),您可以自由選擇。
高可用
- 服務可用性不低于99.9%。
- 規模自動擴充,不影響對外服務;資料持久性不低于99.999%。
- 資料自動多重備援備份。
動态伸縮
每個主題(Topic)的資料流吞吐能力可以動态擴充和減少,最高可達到每主題256000 Records/s的吞吐量。
高安全性
- 提供企業級多層次安全防護,多使用者資源隔離機制;
- 提供多種鑒權和授權機制及白名單、主子賬号功能。
使用場景
DataHub作為一個流式資料處理服務,結合阿裡雲衆多雲産品,可以建構一站式的資料處理服務。
流計算StreamCompute
StreamCompute是阿裡雲提供的流計算引擎,提供使用類SQL的語言來進行流式計算。DataHub 和StreamCompute無縫結合,可以作為StreamCompute的資料源和輸出源,具體可參考
實時計算文檔流處理應用
使用者可以編寫應用訂閱DataHub中的資料,并進行實時的加工,把加工後的結果輸出。使用者可以把應用計算産生的結果輸出到DataHub中,并使用另外一個應用來處理上一個應用生成的流式資料,來建構資料處理流程的DAG。
流式資料歸檔
使用者的流式資料可以歸檔到 MaxCompute(原ODPS)中。使用者通過建立DataHub Connector,指定相關配置,即可建立将Datahub中流式資料定期歸檔的同步任務。
本文來自 阿裡雲文檔中心
DataHub 産品概述【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/zhibo立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK