天天看點

大資料與傳統資料庫是互補關系

文章講的是<b>大資料與傳統資料庫是互補關系</b>,在全球大資料生态圈中,Hadoop堪稱其中最為核心的技術。

    由非營利組織管理的Hadoop平台,盡管推行開源模式,但企業并不是拿來就可以用,它需要經過進一步的加工和修繕,由此孕育了多家大資料商業開發公司,如Cloudera、MapR、Hortonworks等。這些公司的商業模式就是開發商業化的Hadoop分發版,并對外銷售。

    在這些Hadoop分發版開發公司中,Hortonworks剛剛完成IPO,算是最早的一家,目前市值約10億美元。而要論規模和影響力,則莫過于Cloudera。

    Cloudera由分别來自Facebook、谷歌、雅虎和甲骨文的四位創始人于2008年成立。一項資料顯示,75%的Hadoop新使用者使用的都是Cloudera的分發版。

    12月10日,Cloudera正式宣布在中國開始營運,标志着這家已在全球發展了1300多家客戶的大資料公司,将業務觸角伸向這一潛力市場。Cloudera公司創始人、董事長兼首席戰略官Mike Olson亦專程來到中國為新公司站台。

    “随着中國交通、電信、金融、醫療等行業領域的飛速發展,越來越多的企業需要快速,甚至是實時的大資料分析。”Mike Olson在接受記者專訪時表示,大資料在中國企業轉型與變革中發揮的作用将愈發顯著,而Hadoop作為大資料應用中的主流技術,也将逐漸成為企業應用的核心。

    英特爾軟體與服務事業部中國區總經理、英特爾亞太研發有限公司總經理何京翔,以及Cloudera公司副總裁、肯睿(上海)軟體有限公司總經理淩琦也同時接受了專訪。

    50億美元估值

    記者:Cloudera的四個創始人當中,各自怎麼分工,你負責哪些部分?

    Mike Olson:我們四位聯合創始人分别來自于雅虎、谷歌、Facebook和甲骨文。我是來自于甲骨文,在此之前建立了Berkeley DB,後來被甲骨文收購了。2008年與另外三位同僚一起建立了Cloudera,到現在已經六年半了。現在我的角色是董事長和首席戰略官。

    另外的三位同僚,Jeff Hammerbacher來自Facebook,他現在是我們的首席科學家,他在做很多對人類非常重要的一些事情,比如說基因圖譜,利用大資料這樣一個工具進行一些重大疾病的研究。Amr Awadallah是我們的CTO,他來自于當年的雅虎,他是最早在雅虎内部使用Hadoop的人之一。Christophe Bisciglia來自于谷歌,盡管他現在已經離開了Cloudera,但是還是在這個生态圈裡面,他在Cloudera基礎上建立了一些工具和應用,利用大資料這個平台服務客戶。

    另外還有一個需要提及的人是Doug Cutting。大家都知道Doug Cutting是Hadoop之父,他在2004年寫了Hadoop,到2009年加入Cloudera,現在任職我們的首席架構師。

    記者:能否介紹下Cloudera的最新發展情況?

    Mike Olson:目前我們全球擁有800名員工,已經有超過50億美金的市值,有超過1300家的合作夥伴,他們分布在電信、營運商和金融、制造業等各行各業。

    Cloudera的商業模式以軟體銷售為主,同時會提供專業化的服務和認證教育訓練。這類似于Red Hat。誠然,Hadoop是開源的開放式标準,這避免了客戶被某一家廠商鎖定的風險,但僅僅開源并不夠,開源版本更多的是靠一個社群去推動,而企業級客戶需要更穩定、更安全、便于管理的企業級平台。這是企業級使用者大多會選擇Hadoop商業分發版的原因。

    從技術角度來講,Cloudera 的800名員工有一半以上是開發人員,這也就意味着我們對Hadoop社群和整個技術演進的發展方向有非常大的貢獻和影響。

    聯手英特爾

    記者:Cloudera成立六年半後來到中國,準備怎麼開展業務?

    Mike Olson:我們的中國公司——肯睿(上海)軟體有限公司——已經在9月份注冊完成,現在正式對外宣布開始營運。目前的團隊主要在上海、北京、廣州三個地方。業務模式與在美國的業務一脈相承,主要包括四部分:軟體開發、營銷;合作夥伴支援;解決方案咨詢服務;認證教育訓練。

    團隊方面,我們一方面是本地化,淩琦是Cloudera公司副總裁和肯睿(上海)軟體有限公司總經理,他在英特爾工作了20年。另一方面是與英特爾的合作。英特爾向Cloudera投資了7.4億美金,持有18%的股份,我們在産品和技術和團隊上有廣泛的合作。

    淩琦:我來談談中國這邊的情況,第一個方面的工作是把以前英特爾的Hadoop分發版的中國客戶,轉換到Cloudera平台上來。這些客戶主要是在金融領域,包括銀行、證券、保險等。在此基礎上,我們也發現中國市場對大資料的需求在快速增長,比如說電信業,它積累了大量的資料和客戶行為資料,這些資訊會有很大價值可以挖掘。

    我們還看到智慧城市。中國的智慧城市建設非常熱,這裡面也是靠資料來支援,比如說交通管理,比如說在商業分布,甚至說對于城市安全的管理都有非常好的應用。

    另外,大資料在生命科學方面、醫藥研究方面以及流行病趨勢方面,也會有很多應用。

    記者:Cloudera在中國與英特爾将在哪些方面共享資源?

    Mike Olson:我們跟英特爾的溝通當中會發現很多大資料潛在的問題,我們可以通過和英特爾或者與英特爾共享的合作夥伴管道一起提供一個大資料整體解決方案。我們說到的智慧城市、平安城市都是非常典型的大資料應用場景案例。

    何京翔:英特爾在上海的大資料開發團隊,與Cloudera在開源上有很多的合作;另一方面,我們在共有客戶和新客戶方面也會合作,來更好滿足客戶需求。

    我本身在英特爾軟體及服務事業部工作,這個部門一個主要的任務是使得軟體能夠在英特爾平台上跑得最好,是以具體落實到大資料這塊,就是怎麼樣讓Hadoop、Spark這些新的軟體平台在英特爾平台上得到最好的優化,把我們軟硬結合做到最好。

    與傳統資料挖掘是互補關系

記者:有很多力量在推動大資料發展,其中比較典型的包括傳統IT公司面對大資料的轉型,以及新興的創業公司。你怎麼看這兩類公司的優劣勢?

    Mike Olson:像Oracle、IBM、Teradata這些傳統的資料庫或者資料挖掘廠商,其實他們在自己擅長的部分已經做得非常好、非常成功,有非常成熟的解決方案。随着時間的發展,我們現在已經看到越來越多的應用場景和新技術加入到Hadoop平台。正如多年以前谷歌發表了三篇論文,MapReduce、Bigtable、GFS,三篇論文就是Hadoop的原形。Hadoop也是受到這三篇論文的啟發。

    我認為這兩種模式更多的是優勢互補。我們現在看到Cloudera做的大資料平台和傳統資料倉庫EDW資料平台并不是競争的關系,因為我們可以給他們提供更多的資料,更多種類的資料,不論是從量、種類還是資料類型都會遠遠超過過去EDW資料能夠處理的範圍。有了這些資料,使用者還是可以用他們熟悉的資料分析和模組化以及資料挖掘的工具,比如說Teradata,比如說MicroStrategy這樣的東西去發掘資料的價值。

    也就是說,我們這兩個方案完全是互補的關系,我們可以給他提供更多種類的資料,讓他們從中挖掘更多的價值給到使用者。

    這裡想強調一下我們跟合作夥伴良好的關系,舉幾個例子,今年10月份,我們宣布了很多合作,比如說跟Teradata、微軟、EMC,以及我們跟Oracle做了一體機,這些都是非常好的樣闆,會告訴大家我們跟這些傳統的關系型資料庫、資料挖掘公司并不是競争的關系,而是良好的合作關系。

    在Cloudera過去六年半的曆史上,我們已經做到了在大資料領域最大,也是最好的分發版提供商,這也是我們跟合作夥伴持續創新、共同發展、共同成長的一個結果。

    大資料平台作為一個新生的産品或者一個業界的發展動态,畢竟現在還是一個早期的階段,對Cloudera這樣的新興的創業公司來講,在這方面肯定有優勢,船小好掉頭,這也是大家容易了解的。

    記者:美國大資料領域的創業非常活躍,有很多融資、并購的案例。目前中國大資料領域的創業也在增多。你對這樣的創業公司有什麼建議?

    Mike Olson:一是對這些新興的中國的創業的大資料廠商,要盡量讓自己聚焦在建立一個行業的解決方案或者是一些應用,或者是一些上傳的工具,這樣能夠更好地利用Cloudera非常穩定的、成熟的大資料平台,提供整體的解決方案給到客戶。

    中國有很多非常活躍的初創企業,我們非常希望能夠和合作夥伴一起,通過合作夥伴整個生态圈的打造,能夠更多更好地服務于最終客戶。

    隐私問題的技術視角

    記者:你怎麼了解大資料隐私的問題,目前全球有哪些比較好的解決方案?

    Mike Olson:使用者隐私是一個非常重要的話題,不論是對客戶,還是對我們這樣一個産品提供商。我們在這方面已經做了很多工作。前期我們在資料加密和優化方面,和英特爾一起釋出了很多産品。這是一方面。接下來更多的挑戰是,如何把現有我們平台已經有的功能應用到客戶的應用場景裡去解決客戶的真實問題。

    淩琦:第一,我們都了解資訊安全、隐私非常重要。同時跟國家的政策、法規以及文化、心理習慣有關系,是以從一個技術公司的角度來說,我們更多的定位自己是提供能夠加強資訊安全和隐私管理的技術。但是上面所進行的應用開發更多是跟本地的公司在一起做的,而這些公司對本地習慣的了解,文化法規的了解,使他能夠開發這些應用,符合本地使用者的需求。

    第二,我們也認識到隐私其實是個人的事情,如果說這個資料能夠直接點到每一個人,把你所有的東西都通過大資料的技術找出來,這是個很可怕的事情,從技術上不是不可能。但是我們有一些技術可以通過隐藏這個人本身的身份,但是把這些資料剝離出來,能夠知道整個趨勢是什麼樣的,但是把人本身的身份隐藏起來。

作者:淩燕

來源:IT168

原文連結:大資料與傳統資料庫是互補關系