基于mdrill的大資料分析

2014-02-18 12:55:26

資料越來越多，傳統的關系型資料庫支撐不了，分布式資料倉庫又非常貴。幾十億、幾百億、甚至幾千億的資料量，如何才能高效的分析？

mdrill是由阿裡媽媽開源的一套資料的軟體，針對TB級資料量，能夠僅用10台機器，達到秒級響應，資料能實時導入,可以對任意的次元進行組合與過濾。

mdrill作為資料線上分析處理軟體，可以在幾秒到幾十秒的時間，分析百億級别的任意組合次元的資料。

在阿裡10台機器完成每日30億的資料存儲，其中10億為實時的資料導入，20億為離線導入。目前叢集的總存儲3200多億80~400次元的資料。

mdrill的特性1.滿足大資料查詢需求：adhoc每天的資料量為30億條，随着日積月累，資料會越來越大，mdrill采用列存儲，索引，分布式技術，适當的分區等滿足使用者對資料的實時線上分析的需求。

2.支援增量更新：離線形式的mdrill資料支援按照分區方式的增量更新。

3.支援實時資料導入：在僅有10台機器的情況下，支援每天10億級别（高峰每小時2億）的實時導入。

4.響應時間快：列存儲、反向索引、高效的資料壓縮、記憶體計算，各種緩存、分區、分布式處理等等這些技術，使得mdrill可以僅在幾秒到幾十秒的時間分析百億級别的資料。

5.低成本：目前在阿裡adhoc僅僅使用10台48G記憶體的PC機，但确存儲了超過千億規模的資料。

6.全文檢索模式：在mdrill的全文檢索模式資料可以直接存儲在hdfs中，并且以每天160億*70次元的資料增量提供全文檢索服務（注：該模式下不能進行統計，隻能進行關鍵詞比對查詢資料明細）

mdrill的定位

大資料

要資料量大，幾十億上百億。

還要省錢，普通PC就能搞定。

多元分析

要任意次元組合與過濾

還要對任意名額進行統計和排序

即席查詢

要查詢快，秒級響應。

還要資料快，資料分鐘級延遲。

資源清單

mdrill介紹

mdrill介紹PPT

安裝部署

sql使用手冊

版本開發計劃

阿裡媽媽-AdHoc-基于mdrill的大資料自助分析平台

其他

官方位址：https://github.com/alibaba/mdrill

mdrill技術交流群:171465049

微網誌：http://weibo.com/mynyannian

基于mdrill的大資料分析

繼續閱讀

ubuntu14.04下安裝hbse1.0.1.1

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

User Defined Hadoop DataType

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述