天天看點

我的了解2 hadoop不會替換傳統資料庫

主要功能:分析廣告,使用者打分,分析使用者行為,統計日志,資料挖掘

facebook就用Hive來進行日志分析,2009年時facebook就有非程式設計人員的30%的人使用HiveQL進行資料分析;淘寶搜尋中的自定義篩選也使用的Hive;利用Pig還可以做進階的資料處理,包括Twitter、LinkedIn 上用于發現您可能認識的人,可以實作類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!

Facebook使用的資料倉庫都是在Oracle系統上實作的。在我們遇到可擴充性和性能方面的問題之後,開始調查是否有開源技術能夠應用到我們的環境中。

分析廣告,使用者打分,分析使用者行為

Hadoop是資料倉庫的補充,不是資料倉庫的替代品。HDFS是檔案系統,而不是資料庫管理系統。

它分析的是

能夠對資料集進行管理是資料管理系統很重要的特性之一,這一點HDFS是不具備的。

  資料庫管理系統中,我們通過查詢索引可以實作對資料的随機通路,它往往處理的是結構化的資料,而在Hadoop中不會處理這樣的資料類型。

對于Hive/Hadoop的使用并不是意味着将會完全放棄原來傳統的資料庫(Oracle/MySQL),而且把Hadoop/Hive看做是資料庫倉庫的和應用操作層的交集

[img]http://dl.iteye.com/upload/attachment/0072/9000/157a8d59-8330-30f2-a6ae-ce964b167c09.jpg[/img]

圖: Facebook的資料倉庫架構

繼續閱讀