資料越來越多,傳統的關系型資料庫支撐不了,分布式資料倉庫又非常貴。幾十億、幾百億、甚至幾千億的資料量,如何才能高效的分析?
mdrill是由阿裡媽媽開源的一套資料的軟體,針對TB級資料量,能夠僅用10台機器,達到秒級響應,資料能實時導入,可以對任意的次元進行組合與過濾。
mdrill作為資料線上分析處理軟體,可以在幾秒到幾十秒的時間,分析百億級别的任意組合次元的資料。
在阿裡10台機器完成每日30億的資料存儲,其中10億為實時的資料導入,20億為離線導入。目前叢集的總存儲3200多億80~400次元的資料。
mdrill的特性1.滿足大資料查詢需求:adhoc每天的資料量為30億條,随着日積月累,資料會越來越大,mdrill采用列存儲,索引,分布式技術,适當的分區等滿足使用者對資料的實時線上分析的需求。
2.支援增量更新:離線形式的mdrill資料支援按照分區方式的增量更新。
3.支援實時資料導入:在僅有10台機器的情況下,支援每天10億級别(高峰每小時2億)的實時導入。
4.響應時間快:列存儲、反向索引、高效的資料壓縮、記憶體計算,各種緩存、分區、分布式處理等等這些技術,使得mdrill可以僅在幾秒到幾十秒的時間分析百億級别的資料。
5.低成本:目前在阿裡adhoc僅僅使用10台48G記憶體的PC機,但确存儲了超過千億規模的資料。
6.全文檢索模式:在mdrill的全文檢索模式資料可以直接存儲在hdfs中,并且以每天160億*70次元的資料增量提供全文檢索服務(注:該模式下不能進行統計,隻能進行關鍵詞比對查詢資料明細)
mdrill的定位
大資料
要資料量大,幾十億上百億。
還要省錢,普通PC就能搞定。
多元分析
要任意次元組合與過濾
還要對任意名額進行統計和排序
即席查詢
要查詢快,秒級響應。
還要資料快,資料分鐘級延遲。
資源清單
mdrill介紹
mdrill介紹PPT
安裝部署
sql使用手冊
版本開發計劃
阿裡媽媽-AdHoc-基于mdrill的大資料自助分析平台
其他
官方位址:https://github.com/alibaba/mdrill
mdrill技術交流群:171465049
微網誌:http://weibo.com/mynyannian