天天看點

基于mdrill的大資料分析

資料越來越多,傳統的關系型資料庫支撐不了,分布式資料倉庫又非常貴。幾十億、幾百億、甚至幾千億的資料量,如何才能高效的分析?

mdrill是由阿裡媽媽開源的一套資料的軟體,針對TB級資料量,能夠僅用10台機器,達到秒級響應,資料能實時導入,可以對任意的次元進行組合與過濾。

   mdrill作為資料線上分析處理軟體,可以在幾秒到幾十秒的時間,分析百億級别的任意組合次元的資料。

在阿裡10台機器完成每日30億的資料存儲,其中10億為實時的資料導入,20億為離線導入。目前叢集的總存儲3200多億80~400次元的資料。

mdrill的特性1.滿足大資料查詢需求:adhoc每天的資料量為30億條,随着日積月累,資料會越來越大,mdrill采用列存儲,索引,分布式技術,适當的分區等滿足使用者對資料的實時線上分析的需求。

2.支援增量更新:離線形式的mdrill資料支援按照分區方式的增量更新。

3.支援實時資料導入:在僅有10台機器的情況下,支援每天10億級别(高峰每小時2億)的實時導入。

4.響應時間快:列存儲、反向索引、高效的資料壓縮、記憶體計算,各種緩存、分區、分布式處理等等這些技術,使得mdrill可以僅在幾秒到幾十秒的時間分析百億級别的資料。

5.低成本:目前在阿裡adhoc僅僅使用10台48G記憶體的PC機,但确存儲了超過千億規模的資料。

6.全文檢索模式:在mdrill的全文檢索模式資料可以直接存儲在hdfs中,并且以每天160億*70次元的資料增量提供全文檢索服務(注:該模式下不能進行統計,隻能進行關鍵詞比對查詢資料明細)

mdrill的定位

大資料

要資料量大,幾十億上百億。

還要省錢,普通PC就能搞定。

多元分析

要任意次元組合與過濾

還要對任意名額進行統計和排序

即席查詢

要查詢快,秒級響應。

還要資料快,資料分鐘級延遲。

資源清單

mdrill介紹

mdrill介紹PPT

安裝部署

sql使用手冊

版本開發計劃

阿裡媽媽-AdHoc-基于mdrill的大資料自助分析平台

其他

官方位址:https://github.com/alibaba/mdrill

mdrill技術交流群:171465049

微網誌:http://weibo.com/mynyannian