天天看點

【大資料100分】大資料架構及行業大資料應用(中級教程)

【大資料100分】南大通用cto武新:大資料架構及行業大資料應用〖大資料中級教程〗

主講嘉賓:武新

主持人:中關村大資料産業聯盟 副秘書長陳新河

承辦:中關村大資料産業聯盟

武新,南大通用進階副總裁兼cto,法國奧爾良大學和法國國家科研中心博士;南大通用gbase系列資料庫産品的總設計師。在著名的甲骨文公司任職12年,是世界頂級的oracle資料庫專家。2010年獲得中組部實施的國家“千人計劃”榮譽(海外高層次人才引進計劃),是國内基礎軟體行業唯一入選的資料庫技術專家。對目前最新興的列存儲技術、壓縮技術、sql優化技術、大型分布式系統等有長期研究和開發經驗。曾參與法國家樂福超市、雷諾汽車公司、空客飛機公司、法國航空公司、法國通訊公司等資料庫管理的技術支援、咨詢和指導工作。

以下為分享實景全文:

主持人:請先介紹下自己和正在做什麼。

武新:我85年出國,08年回國。90年代初開始跟oracle資料庫打交道,回國之前在oracle公司(法國)工作了12年,主要做資料庫核心技術的支援、架構、咨詢工作。回國後帶團隊設計開發了gbase 8a列存儲資料庫、gbase 8a mpp cluster并行資料庫叢集以及一些配套工具。這2款産品在過去的3年裡已經開始在國内不同行業使用,目前勢頭很不錯。當時開發這些産品的目的是面向結構化資料分析應用的,主要是想用新的技術和架構在資料庫市場跟傳統行存儲資料庫競争,分一塊蛋糕。沒想到的是,這幾年雲計算、大資料開始火起來了,是以我們的産品也被推上了風口浪尖。

我們期望的“天時地利人和”也許能幫助gbase 在資料分析領域占有一席之地。我現在帶領大概200人做研發和技術支援,還在搞新技術,很開心。

我今天跟大家分享些我們總結的底層資料處理技術的發展趨勢和正在經曆的巨大變革。 這個領域過去5年發展很快、熱度很高,目前還在起步階段。我今天是來學習的,講的内容更多的是抛磚引玉,感謝大家一起讨論并指正!

先講講資料,以及大資料對資料處理技術的壓力,然後分析為什麼這幾年資料處理技術上的創新很多。

1.-資料價值的發現與使用

先不說什麼是大資料,這個争議很多,我也說不清楚。不過我個人認為在大資料的4個v中,最顯著的特征應該是value(價值),其他幾個v都很模糊。也就是說,不管資料多大,是什麼結構,來源如何,能給使用者帶來價值的資料是最重要的資料。

我們都知道對資料價值的挖掘一直是使用者在做的事情,這個在it出現之前古人已經在實踐了,而且有不少成功案例。“眼觀六路,耳聽八方”可能是最形象的資料采集方法。我跟資料打了20多年的交道,從來沒感覺到搞資料的地位有今天這麼高。

那麼到底什麼變了,讓我們這麼熱衷“大資料”?我感覺是整個社會對資料的認知變了,開玩笑說大資料是什麼很難說清楚,但它目前最大的貢獻至少是讓社會各個層面開始認識到資料的重要性,包括最高上司和底層的老百姓。奧巴馬搞了個“big datainitiative”,有點類似布什當年的“information highway”(這個推動了網際網路的發展),讓世界發現美國人在動真格了。

目前大家基本達成共識:資料象石油、煤一樣是寶貴的資産,其内在的價值非常巨大。另外一個顯著的貢獻無疑是網際網路企業對于資料的巧妙使用和價值展現,這裡面的案例就很多了。

2. -資料處理技術的回顧

網際網路的資料“大”是不争的事實,現在分析一下資料處理技術面臨的挑戰。目前除了網際網路企業外,資料處理領域還是傳統關系型資料庫(rdbms)的天下。傳統rdbms的核心設計思想基本上是30年前形成的。過去30年脫穎而出的無疑是oracle公司。全世界資料庫市場基本上被oracle,ibm/db2,microsoft/sql server 壟斷,其他幾家市場佔有率都比較小。sap去年收購了sybase,也想成為資料庫廠商。有份量的獨立資料庫廠商現在就剩下oracle和teradata。開源資料庫主要是mysql,postgresql,除了網際網路領域外,其他行業用的很少。這些資料庫當年主要是面向oltp交易型需求設計、開發的,是用來開發人機會話應用為主的。這些傳統資料庫底層的實體存儲格式都是行存儲,比較适合資料頻繁的增删改操作,但對于統計分析類的查詢,行存儲其實效率很低。在這些成熟的資料庫産品中,有2個典型特例:一個是teradata,一個是sybase iq(盧總是專家)。

teradata一開始就使用mpp(massive parallel processing)架構,以軟硬一體機的産品方式提供給客戶,其定位是高端客戶的資料倉庫和決策分析系統,teradata在全世界的客戶隻有幾千個。 在這個資料分析高端市場上,teradata一直是老大,在資料分析技術上oracle和ibm打不過teradata。sybase iq是一款最早基于列存儲的關系型資料庫産品,其定位跟teradata類似,不過是以軟體方式銷售的。teradata和sybase iq在資料分析應用上的性能其實都比oracle,db2等要普遍好。

【大資料100分】大資料架構及行業大資料應用(中級教程)

圖 1資料庫發展曆史

3.-資料增長加速,資料多樣化,大資料時代來臨

現在看看為什麼資料的量突然在快速增長。如果說現在是大資料時代了,其實是資料來源發生了質的變化。在網際網路出現之前,資料主要是人機會話方式産生的,以結構化資料為主。是以大家都需要傳統的rdbms來管理這些資料和應用系統。那時候的資料增長緩慢、系統都比較孤立,用傳統資料庫基本可以滿足各類應用開發。

網際網路的出現和快速發展,尤其是移動網際網路的發展,加上數位裝置的大規模使用(ccd,cmos技術的大規模産業化),今天資料的主要來源已經不是人機會話了,而是通過裝置、伺服器、應用自動産生的。傳統行業的資料同時也多起來了,這些資料以非結構、半結構化為主,而真正的交易資料量并不大,增長并不快。機器産生的資料正在幾何級增長,比如基因資料、各種使用者行為資料、定位資料、圖檔、視訊、氣象、地震、醫療等等。

另外,我們每個人也在不知不覺中不斷産生着大量的資料(比如這個論壇,除了我正在寫的内容,背景可以産生10倍以上的資料和衍生的資訊:誰在關注、在哪裡、關注的這些人有哪些共性、用的是什麼終端。系統甚至可以實時分析出大家對我講的内容情緒是什麼,可以預測最終給打多少分等。如果我有這類實時的系統回報,那麼可以實時調整要講的内容,等等,想象空間可以很大)。

所謂的“大資料應用”主要是對各類資料進行整理、交叉分析、比對,對資料進行深度挖掘,對使用者提供自助的即席、疊代分析能力。還有一類就是對非結構化資料的特征提取(指紋、圖像、語音自動識别、基因資料比對等),以及半結構化資料的内容檢索(搜尋)、了解(語義分析)等。

傳統資料庫對這類需求和應用無論在技術上還是功能上都幾乎束手無策。這樣其實就給類似hadoop的技術和平台提供了很好的發展機會和空間。網際網路公司自然就選擇能支撐自己業務的開源技術了,反過來又推動了開源技術的快速發展。

4. -新的資料處理技術、産品和創新

為了應對資料處理的壓力,過去十年間在資料處理技術領域有了很多的創新和發展。除了面向高并發、短事務的oltp記憶體資料庫外(altibase,timesten),其他的技術創新和産品都是面向資料分析的,而且是大規模資料分析的,也可以說是大資料分析的。

在這些面向資料分析的創新和産品中,除了基于hadoop環境下的各種nosql外,還有一類是基于shared nothing架構的面向結構化資料分析的新型資料庫産品(可以叫做newsql),如:greenplum(emc收購),vertica(hp 收購),asterdata(td 收購),以及我們在國内開發的gbase 8a mpp cluster等。目前可以看到的類似開源和商用産品達到幾十個,而且還有新的産品不斷湧出。一個有趣的現象是這些新的資料庫廠商多數都還沒有10年曆史,而且發展好的基本都被收購了。收購這些新型資料庫廠商的公司,比如emc、hp,都希望通過收購新技術和産品進入大資料處理市場,是新的玩家。sap除了收購sybase外,自己開發了一款叫hana的新産品,這是一款基于記憶體、面向資料分析的記憶體資料庫産品。

這類新的分析型資料庫産品的共性主要是:

架構基于大規模分布式計算(mpp)

硬體基于x86 pc 伺服器

存儲基于伺服器自帶的本地硬碟

作業系統主要是linux

擁有極高的橫向擴充能力(scale out)和内在的故障容錯能力和資料高可用保障機制

能大大降低每tb資料的處理成本,為“大資料”處理提供技術和成本效益支撐。

後面要介紹mpp關系型資料庫與hadoop/nosql之間各自的優點和應用場景。

總的來看,資料處理技術進入了一個新的創新和發展高潮,機會很多。這裡的主要原因是一直沿用了30年的傳統資料庫技術遇到了技術瓶頸,而市場和使用者的需求在推動着技術的創新,并為此創造了很多機會。在大資料面前,越來越多的使用者願意嘗試新技術和新産品,不那麼保守了,因為大家開始清晰地看到傳統技術的瓶頸,選擇新的技術才有可能解決他們面臨的新問題。

現在的總體趨勢是在資料量快速增長、多類資料分析并存的需求壓力下,資料處理技術朝着細分方向發展,過去30年一種平台滿足所有應用需求的時代已經過去。我們必須開始根據應用需求和資料量選擇最适合的産品和技術來支撐應用。世界資料處理市場格局正在發生革命性的變化,傳統資料庫(oldsql)一統天下變成了oldsql+newsql+nosql+其他新技術(流、實時、記憶體等)共同支撐多類應用的局面。在大資料時代,需要的是“八仙過海”,是資料驅動最優平台和産品的選擇。

【大資料100分】大資料架構及行業大資料應用(中級教程)

圖 2資料處理的市場格局變化

我們正在迎來30年一遇的資料處理技術發展高峰期,30年前的上個高峰造就了十幾家世界級的資料庫廠商,其中的oracle 市值超過千億美金,員工超過10萬人。網際網路已經造就了象google這樣用資料創造價值的輝煌企業,其市值已經超過了oracle。 google是用資料+技術快速創造了成功,而oracle是用産品+服務不斷積累了成功。不同的模式,不同的物種,未來如何,讓我們拭目以待吧。

5. - mpp關系型資料庫(new sql)與hadoop的非關系型資料庫(nosql)

新的技術主要是mpp架構的新型資料庫和hadoop生态環境,我對mpp比較熟悉,hadoop略知一點,主要談談mpp的優勢。

大資料存儲技術路線最典型的共有三種:

第一種是采用mpp架構的新型資料庫叢集,重點面向行業大資料,采用share nothing架構,通過列存儲、粗粒度索引等多項大資料處理技術,再結合mpp架構高效的分布式計算模式,完成對分析類應用的支撐,運作環境多為低成本pc server,具有高性能和高擴充性的特點,在企業分析類應用領域獲得極其廣泛的應用。

這類mpp産品可以有效支撐pb級别的結構化資料分析,這是傳統資料庫技術無法勝任的。對于企業新一代的資料倉庫和結構化資料分析,目前最佳選擇是mpp資料庫。

【大資料100分】大資料架構及行業大資料應用(中級教程)

圖 3 mpp架構圖

第二種是基于hadoop的技術擴充和封裝,圍繞hadoop衍生出相關的大資料技術,應對傳統關系型資料庫較難處理的資料和場景,例如針對非結構化資料的存儲和計算等,充分利用hadoop開源的優勢,伴随相關技術的不斷進步,其應用場景也将逐漸擴大,目前最為典型的應用場景就是通過擴充和封裝hadoop來實作對網際網路大資料存儲、分析的支撐。 這裡面有幾十種nosql技術,也在進一步的細分。對于非結構、半結構化資料處理、複雜的etl流程、複雜的資料挖掘和計算模型,hadoop平台更擅長。

第三種是大資料一體機,這是一種專為大資料的分析處理而設計的軟、硬體結合的産品,由一組內建的伺服器、儲存設備、作業系統、資料庫管理系統以及為資料查詢、處理、分析用途而特别預先安裝及優化的軟體組成,高性能大資料一體機具有良好的穩定性和縱向擴充性。

6. -資料倉庫的案例

個人對資料倉庫比較熟悉,是以可講講。我們拿大家熟悉的資料倉庫(data warehouse=dw)來看看資料分析的價值。

在網際網路高速發展之前,無論是電信營運商,還是大銀行,保險公司等都花費了巨額資金建立了自己的企業級資料倉庫。這些倉庫主要是為企業決策者生成企業的一些關鍵名額(kpi),有的企業有幾千張、甚至上萬張kpi報表,有日表,周表,月表等等。這些系統有幾個主要特征:

技術架構主要基于傳統rdbms + 小型機 + 高端陣列 (就是大家說的ioe),當然資料庫有部分db2,teradata等。

報表基本都是固定的靜态報表,産生的方式是t+1 (無法即時産生)。

資料量增長相對緩慢,dw的環境變化很少。

最終使用者隻能看彙總的報表,很少能夠基于彙總資料做動态drilldown (鑽取)。

多數上司基本上認為花了很多錢,但看不出是否值得做,有雞肋的感覺。最後大家對大量的報表都視而不見了。

這類系統屬于“高富帥”,是有錢的企業給上司用的。

最後,目前多數企業和部門根本就沒有資料倉庫。其實大家對傳統資料的分析還沒做得太好、還沒有普及,現在又遇上了大資料。

大家往往會問這類資料倉庫對企業是不是真正有用?我認為是的。關鍵還是如何把資料用好。

用3個案例,講講資料分析能力和分析結果的巧妙使用比資料大更重要。

第一個是個親身經曆過的案例:

在90年代後期,法國電信決定建立自己的核心資料倉庫(項目的名字很有詩意,叫“symphony”),把當時法國使用者全部的話單資料(固網電話,那時還沒有現在的移動手機)彙集到一個資料庫中,用話單資料跟使用者的其他屬性做交叉統計,看看有什麼消費行為和規律。項目需求是負責marketing的部門提出的,技術部門負責實施。

這個項目當時在世界上是最大的民用資料庫,30tb資料規模,光磁盤陣列就占了很大的一個機房。經過大量的投資和艱苦的建設(第一期使用的是oracle 7, 剛開始有分區功能),第一批統計資料終于跑出來了。我記得最清楚的一個是通話時長的分布。 大家驚奇的發現有很大一部分通話不超過1分鐘(大概是30%以上,不記得準确的數字了),而且跟使用者其他特征關聯不大。

随後,為了推動消費,marketing部門想出了一招,很快法國電信推出廣告,大緻是“為了給大家提供更好的社交便利,我們決定從xx日起降低電話通訊費用30%,大家可以多打電話,可多跟家人、朋友聊天了……”。

從廣告釋出的第二個月開始,統計顯示大家打電話的次數增加了,這給法電帶來了更多的收入。這裡面的存在某種問題或陰謀是第一分鐘的話費沒有降,是從第二分鐘開始降低30%,而大家覺得打電話便宜了,自然打的次數就多了。

第二個案例是個相反的案例,說明技術平台對需求的滿足有時很難。這個案例不是自己經曆過的,是聽比較靠譜的朋友講的。

大家每年過春節都發很多短信。營運商是以掙很多錢。中國早就是世界上短信第一大國。據說有一年的春節期間,某電信營運商的老大突然問it部門老大要每個小時一共發了多少短信的實時統計資料。it老大找底下的營運部門要,居然沒有人能把這個簡單的資料按時統計出來。大家可想像那個電信營運商老大是什麼反應:投資了上百億的系統,竟然連個這麼簡單的問題都回答不了。

我分析當時的原因可能有2個:一是營運商是按省份建立資料倉庫的,而全國的資料需要彙總所有省份的統計,很難;二是在每個省的資料倉庫裡統計這個資料沒有可用的報表,臨時用sql統計可能要跑很長時間(雖然是個簡單的select count(*), 但要全表掃描肯定不會快的)。這是個典型的技術拖了需求後腿的案例。

第三個案例也是自己經曆過的,沒有時間線上講,放在這裡供大家參考。

這是法國一家著名超市集團在90年代就通過a/b試驗和資料分析總結出的一個商品在超市最佳擺放位置的案例。這個案例肯定沒有比大家都知道的“尿布與啤酒”那麼經典,但實用性很強,今天仍然在使用,大家不信下次可以去超市買東西時驗證下。

問題的起源是“針對同一類型中不同品牌、不同價格、不同利潤的商品,擺在貨架的什麼位置最容易銷售出去?”。為了科學的回答這個問題,這家超市組織了真實試驗以獲得真實資料。試驗很簡單,比如把1個商品先擺在貨架高處,然後擺在中間、最後擺在底下的位置,每次擺放的時間一樣長。試驗期間不斷收集不同商場的銷售資料,最後的統計結果發現當把商品擺放在跟多數人視野水準高度接近的位置時,商品賣的最好。據說後來還咨詢了心裡學專家解釋這個現象,原因好像大家無意中關注的重點就是視野的水準方向。

大家可以試驗下,今天多數超市都把最貴或者利潤最高的商品放在跟多數人視野水準高度接近的位置,而最便宜的同類商品放在最底層,其他的放在最高層。當然,這個規律可以進一步細化,比如給小孩的糖果都擺的比較低、在結帳台附近等等。知道了這個規律,大家可以省些錢的,哈哈!

從這3個案例可以看出,在沒有“大資料”概念之前,大家已經在用不同手段從資料中獲得有價值的資訊并推動了企業的業務發展。今天的“大資料”可能是把資料挖掘方法、用資料思維的方式更廣泛的使用而已。

7. -資料處理技術的核心問題到底是什麼?

其實我們一直面臨着資料進行中最核心、最大的問題,那就是性能問題。性能不好的技術和産品是沒有生命力的。資料處理性能問題不是因為大資料才出現,也不會有了大資料技術而消失。這是個“道高一尺,魔高一丈”的問題:處理性能的提升将促進對資料價值的挖掘和使用,而資料價值挖掘的越多、越深入,對處理技術要求就越高。

上面的案例其實已經說明了因為性能問題,目前的資料倉庫隻能滿足一些靜态統計需求,而且是t+1模式;也是因為性能問題,營運商無法有效構造超過pb級别的大資料倉庫,無法提供即席查詢、自助分析、複雜模型疊代分析的能力,更無法讓大量一線人員使用資料分析手段。

今天如果做“大資料”資料倉庫,營運商面臨的挑戰比上個10年要大的多。目前沒有單一技術和平台能夠滿足類似營運商的資料分析需求。可選的方案隻能是混搭架構,用不同的分布式技術來支撐一個超越pb級的資料倉庫系統。這個混搭架構主要的核心是新一代的mpp并行資料庫叢集+ hadoop叢集,再加上一些記憶體計算、甚至流計算技術等。

為什麼今天的挑戰更大,主要是下面幾個原因:

第一個原因是資料量已經是上一代的一個數量級了,1個省份級營運商1年就可超越1pb結構化資料,其中尤其是資料業務産生的日志資料在智能終端普及下爆炸式增長,而這些資料其實跟網際網路企業采集到的移動資料完全一樣,營運商可以獲得甚至比網際網路企業更多的資料。這些資料還屬于正常業務産生的資料。如果把交換機、基站等産生的資料(部分非結構化)加進來(關注網絡服務品質),把内容資料也加進來(關注使用者通路的内容),最終的資料量可能還要上一個數量級。明天何鴻陵會詳細介紹營運商面臨的資料和技術挑戰,我也是班門弄斧了。

第二個原因是“大資料”關注的更多是使用者行為、群體趨勢、事件之間的相關性等,而不僅僅是過去的kpi,說穿了就是開始關注最終使用者的行為,為精細化營銷、優化企業流程、降低營運成本等做支撐。這就對資料分析平台對資料的分析能力和性能提出了新的要求和挑戰。這些要求跟上一代資料倉庫相比不僅僅是量的改變,而是質的改變。比如對大表之間的關聯、複雜的olap函數、複雜的資料挖掘函數等。

是以我想講的是我們需要多元化的技術來支撐大資料了。

【大資料100分】大資料架構及行業大資料應用(中級教程)

圖 4未來大資料處理的核心技術

這個圖可能就是未來幾年大資料處理的核心技術所在。當然網際網路公司另論了。

為了說明這一個混搭技術的趨勢,再舉個最近一個客戶對新一代資料分析産品需求的案例:

下面是最近一家營運商招标檔案中對mpp資料庫的技術需求描述:

“大資料分析平台功能方面,要求具備資料結構和處理方式的多樣化處理要求。系統除标準sql外,還需支援mapreduce等分布式處理機制,具備優秀的非結構化資料處理能力,提供完整的事務管理功能,具備完善的混合負載管理能力;具備良好的通用性,支援主流第三方工具,提供可視化開發界面,支援自定義開發。性能方面要求大資料的加載、處理、導出等關鍵處理性能表現優異,具備優秀的高可用性和線性擴充能力,支援線上擴容,100台規模内增加節點後,系統的性能擴充系數大于0.8。運維方面要求提供統一的管理監控平台,系統運維操作簡單。”

大家可以看出,既需要事務處理能力,又需要mapreduce能力。不是一個産品能搞定的。

下面是招标書中對業務需求的描述:

“模型必須包含使用者軌迹模型和使用者交往圈模型。 使用者軌迹模型是指記錄使用者在通信網絡中的xxx等資訊,分析使用者的移動路徑,了解使用者的生活軌迹,以更好地為精确營銷類應用提升資料支撐,同時為網絡可管理的科學選址奠定位置基礎。使用者交往圈分析是指對cdr清單資料中蘊含的使用者之間的社會關系進行分析挖掘,得出基于使用者通話行為的社交網絡交往圈,同時結合使用者位置軌迹資訊,發掘交往圈中經常處于同一位置範圍内的使用者,并對交往圈中的使用者進行分群,進而以交往圈的角度,深入了解客戶,提升客戶價值,為使用者維系挽留,離網預警,精确營銷提供支撐”

而招标書中對資料挖掘的需求更是關系型資料很難解決的:

“大資料平台具備非結構化資料處理能力(文本分詞),支援多元社交網絡分析、路徑分析等大資料深度分析功能,支援經典資料挖掘算法,包括:邏輯回歸、聚類、決策樹。”

從上面标書内容可以看出,無論是對資料處理平台的技術,還是業務需求都跟上一代資料分析平台有了巨大的差别。比如需要mpp與hadoop map reduce的融合,需要分析使用者的交往圈、移動路徑等等。這些網際網路企業在做的大資料分析,傳統企業也開始做了。

8. 總結 - 新型mpp資料庫的價值

技術:基于列存儲+mpp架構的新型資料庫在核心技術上跟傳統資料庫有巨大差别,是為面向結構化資料分析設計開發的,能夠有效處理pb級别的資料量。在技術上為很多行業使用者解決了資料處理性能問題。

使用者價值:新型資料庫是運作在x-86pc伺服器之上的,可以大大降低資料處理的成本(1個數量級)。

未來趨勢:新型資料庫将逐漸與hadoop生态系統結合混搭使用,用mpp處理pb級别的、高品質的結構化資料,同時為應用提供豐富的sql和事務支援能力;用hadoop實作半結構化、非結構化資料處理。這樣可同時滿足結構化、半結構化和非結構化資料的處理需求。

下面這個圖是我們正在做的産品架構圖,将逐漸把mpp與hadoop技術融合在一起,為使用者提供透明的資料管理平台。

【大資料100分】大資料架構及行業大資料應用(中級教程)

圖 5 mpp與hadoop技術融合的産品架構圖

互動内容:

牛一壹:mpp無法像hadoop那樣擴充到5000個節點的原因是什麼?另外,列式的mpp與列式的nosql差別主要在那裡?

武新:mpp有的号稱可做到1000個節點,我們實際用到的在百節點規模。不過mpp的資料處理密度要遠大于hadoop,目前100節點可處理2pb結構化資料。

張涵誠:google用什麼系統啊?

武新:google用自己開發的系統。

張涵誠:前輩,衛星、氣象、地震資料也分析下啊。

武新:是的,衛星、氣象、地震等都是很龐大的資料。

牛一壹:這是将mpp與hadoop內建,統一管理,目前市場上有這樣的管理平台嗎?

武新:mpp的擴充問題是底層的存儲層,mpp使用的是本地磁盤,資料本地化存儲;hadoop的hdfs解決了大規模資料分布存儲問題。另外一個問題是mpp都是用連接配接态執行sql,而hadoop用job方式。大家正在試探把mpp的存儲放在hdfs或其他dfs上,目的是提升mpp的擴充能力。市場上未來2-3年會有統一的平台。mpp的列式存儲與nosql的本質上差别不大。mpp主要是關系型的表,表的每個字段列存儲;而nosql是schema free,列的粒度不同。

張存勇:地震預報不準是否與大資料處理能力不足有關?

武新:有一定關系,但不太大。

張存勇:使用者很需要利用曆史資料做産品等多元度全生命周期分析,以利改進工作提高效率。

武新:完全同意,是以機會很多,不僅僅是網際網路。其實行業使用者對資料分析、挖掘的需求和多樣性要大于網際網路。

陳新河:能否在hadoop領域出現類似當年的orcale呢?

武新:可能性不太大,原因是發展太快,技術要細化。

吳東亞:您覺得在這個方面,國内企業還有機會嗎?還有,您對行業大資料開放怎麼看?

武新:國内企業機會很好,也很多。關鍵是資本、人才、環境是否能培養出大企業來。資料開放首先需要解決法律問題,這是國家的事。大資料讓大家沒有隐私可言,就像核能,是雙刃劍。

劉睿民:海量節點間通訊的問題您覺得有什麼樣好的解決途徑,現在超大表,或寬表出現的機率愈來愈高了。join的節點拷貝會帶來很大問題的。

武新:pivotal 的方向是對的,内部的優化很難。td 的bynet 做了20多年,軟硬優化的很好。我們正在優化這部分,基于新的網絡技術,幾百個節點間通信不是問題了。

吳東亞:再問個問題,國外除了政府,科學資料外,行業資料有開放先例嗎?有可借鑒學習的法律嗎?

武新:我所知道的有,比如:氣象資料、人口資料等。需要參考西方發達國家的法律,隐私在西方是至高無上的問題。是政府資料,沒有企業拿自己的資料(資源)免費給别人的,哈哈。

吳東亞:希望貴公司早日開發出有競争力的産品。

武新:謝謝!已經有競争力了。國外的廠商已經開始打壓我們了,有時報價比我們還低。

張涵誠:大資料是不是用0、1描述不科學?資料和物體不對等,但是都在用資料量化宇宙是不是不對頭?沒有新的計算科學,我們不可能掌握大資料,對不?你怎麼看?

武新:非常對!我曾跟一個數學家聊過,他說大資料對很多算法是颠覆性的,需要發明新的算法。

劉睿民:@張涵誠 不能這樣認為,hadoop 是開源,企業版還是需要我們自己努力做。沒有天上掉下來該我們的

張涵誠:嗯。

武新:hadoop是google基本淘汰的技術了。新的東西沒有開源,比如f1/spanner。google 已經用衛星+原子鐘同步不同的資料中心裡的伺服器時間,為spanner提供資料一緻性服務,很震撼!

賴兆紅 :@劉睿民:說到點上了,我有計劃推出version 1。

劉睿民:@賴兆紅 這個情況我了解的,不是不成熟。對于國家氣象,海量的資料主要是用于數值計算,對算法要求極高。他們買的是mainframe,這個門檻非常的高。

武新:買ioe的仍然很多,但問題是他們往往連ioe都用不好,白花不少冤枉錢。

張涵誠:@武新,發明新的計算機吧,it,我們在沿老美設計的路在走。

劉睿民:您對矩陣資料庫如何看?從數學的角度來看,它基本能解決絕大多數現在大資料面臨的算法問題。

武新:這類資料庫可解決一些特殊需求(細分),問題是建立矩陣需要得時間很長,類似索引。另外,資料很難實時更新。mainframe的純計算能力其實不高,io子系統,mainframe上的db2是強項。 不知道為什麼還買mainframe,好像中國人買掉了一半的mainframe。

劉睿民:但是記憶體技術如果一起使用的話應當速度會猛升。感覺會很有前途!

武新:太棒了,你們已經在做了。如果不做,我下一步及時mpp+記憶體。如果你們做得好,我幫你們推廣,可以和我們的基于磁盤的mpp組合使用。

劉睿民:共同前進!找機會深度交流下。

武新:一定,新技術很熱鬧,也很開心。國内大的形勢會越來越好,國人對自己的信心正在建立,國貨一定有前途的。前提是要自己争氣。

董健:武總,我們做的事情和mpp比較類似,不過我們更加側重的是上層的分布式計算層,相當于我們有一個和hadoop核心類似的計算層,但是我們做的更加通用,畢竟hadoop的map-reduce隻能夠适應那種批處理,也就是一個任務本身工作量很大的類型,對于高并發的小任務,實時任務,包括有工作流的任務就完全不适合了。

武新:非常好,我們是一路的,可下來向你們請教。複雜的大表關聯,分布式事務都支援了嗎 ?

董健:我們能夠實作rdbms和nosql的分布式的表各種關聯,基本上sql和nosql支援的标準文法在分布式的結構上都支援了,還包括我們擴充的文法,比如社會化媒體中經常用到的各種形式的faceted search。

武新:這個我們做了,花了很多精力。對性能是有一定影響的,不過使用者對資料的強一緻性要求是不可規避的。

董健:以前國外的使用者對事務的使用是比較普遍的,總之各種架構有各自的優勢,國内選擇了應用層的保證,其實是放棄了更專業的廠商提供的方法。想當初,我們做事務,那可是真的跟硬碟死磕,必須保證在各種實體故障的時候保證資料的一緻性。

張存勇:@劉睿民 @武新 希望你們共同強大,我們做大資料應用的,就沒有後顧之憂了。

武新:我們一直在努力,會越來越有競争力的。

董健:上次一個智慧城市的項目,标書就明确要求國産資料庫,是以我們也希望能夠和國内的資料庫實作深度的對接,發揮各自的優勢。

董健:我們當時選擇不做資料引擎,而利用現有資料庫其實也是希望利用現有成果,一個最重要的原因就是利用企業現有的資料存儲配置,剛才@陳新河 已經介紹了,雲計算的一個核心問題就是讓企業it架構發生太大的變化,而産生巨大的阻力。iaas能夠盛行主要是沒有切任何現有廠商的蛋糕,結果又創造了新的需求,一堆人才會撲上去,雖然最後沒有成果,都搞成了房地産,但核心原因擺在那裡。

武新:國産基礎軟體一定慢慢能做起來的,相信會有大的動作。

董健 :你們的定位是分析麼?如果是分析,為什麼要做分布式事務?你們也有mpp形式的oltp産品?

武新:是的,與移動研究院合作研發的,已經開始試用了。

武新:在分析型mpp上,我們用類似paxos機制實作了2階段送出,保證所有節點的資料dml是一個完整的事務。

董健:不太了解,分析型mpp,為什麼要保證dml的完整,而且列式存儲隻能追加,修改資料的機會就更少。是為了保證一批資料沒有全部進入的時候不能被分析看到?

武新:雖然是分析型,但使用者也需要做dml操作的(比如電信話單重批,從ods彙總到上層,等等),這類操作可能要同時涉及到分布到所有節點上的資料,而這類操作必須要保證原子性,否則資料會弄錯的。

張存勇:斯諾登和這次的華為淪陷教訓太深刻了。

董健:可惜國内大部分時候都是口頭提自主可控,實際做事的人少。

張存勇:我們要從最基礎做起,我們的嵌入式物聯網網關及采集器采用的是國産龍芯晶片組。

董健:原來很多國内的大廠商說,咱們的東西隻要能啟動就行了,要求不高。我一直期望和ibm和oracle同台競争,我太了解他們,他們不神秘,就是踏實的積累。

董健:上次,我們就在一個項目中拿出ibm的pda有很多明顯優勢的東西,以前我對exadata有研究,結果ibm說pda更強,我就仔細研究了一下,某個領域很有優勢,但是還是沒逃出他們的老套路。

董健:就是剛才武總說的一體機系列,一體機在節點之間的配合上确實比開放式結構的mpp有很多優勢,雖然pda号稱也是mpp。

劉睿民:ibm是收購的netezza,是基于fpga的,說是mpp有點兒過了。

董健:對,就是netezza,在那個機櫃裡面share nothing,是以說是mpp。

董健:他們的優勢在于硬體的整合,比如fpga,比如高速帶寬。exadata也是,可以在壓縮、資料傳輸、資料過濾上有些優勢,但是逃不出機櫃,還是scaleup。

武新:netezza跨機櫃擴充很困難,另外fpga實際效果并不好,是串行的。

劉睿民:還是要追求混合負載吧。

董健:在一定資料範圍内有一些優勢,但是拿pda玩大資料就有點扯了,結果弄個hadoop過來,自己家先弄倆豎井,還談什麼大資料整合。

董健:fpga的優勢就是把一些軟體算法硬化了,但是具體的優化就很難了。我們針對不同的資料通路都會對資料通路方法進行優化,盡量少查,盡量少傳。這些估計pda都不會做。

劉睿民:我以前做過tandem 的mpp oltp的引擎,部署過像amex那樣的1024個節點,他的并行oltp和tpm絕對可以參考。

武新:這個很牛!一定向你請教其内部核心實作,尤其是網絡、事務部分。謝謝!

董健:不過國内ibm的人對pda的産品了解的精度有限,如果跟netezza的人溝通,可能效果會不一樣,以色列人的it還是很厲害。

董健:深交所原來用的是tandem?

劉睿民:是tandem。nato全球飛機健康監測全部跑tandem。

武新:tandem很牛。

賴兆紅:我們有一個fpga團隊,fpga對實時stream資料和關鍵processing及 algo 有重大優勢。

董健 :我相信。

賴兆紅:我們主要用fpga來做10g/40g高速資料采集過濾處理,晶片太貴了。

劉睿民:直接來個select xxxfromt1,t2...t9 (select xxx from s1,...s9 join t1s9,t2s8),他的mpp馬上露餡。

董健 :pda号稱支援全部的sql,我曾經懷疑過這些問題,但是看在他們前面的問題都回答的不好,就沒有再窮追猛打了,畢竟那個是他們布的局。

董健 :我印象中的tandem好像跟nonstop有關系,因為原來我們曾經把中間件代碼授權給nonstop。

董健:想想那個時代,我們支援的作業系統比jvm支援的都多,什麼sequent,nec,fujitsu,hitachi,irix。

劉睿民:他是支援。但mpp的多表複雜關聯,在fpga下是沒法并行的。

武新:我在vax vms上搞過oracle v6,好東西啊。

董健:我原來是我們那個團隊唯一的openvms火種啊,從vax到alpha到ia。

董健:pda不是每個計算節點上都有fpga麼?他們的并行應該是多個計算節點的并行,節點内不清楚了。

劉睿民:是的,tandem 現在就是惠普的nonstop. 你說的是tuxedo,因為tandem要和unix世界打交道。

董健:我們甚至連os/390都支援了。

劉睿民:fpga沒法并行。

董健:嗯,我原來負責的就是tuxedo。

董健:還有messageq,世界上第一個消息中間件。

武新:時間飛快,不過搞資料技術一直很exiting。

董健:dec公司創造了無數的好産品,很難有公司與其相比,但是和lucent一樣,都敗在了市場上。我有幸有機會深度接觸這兩家公司的核心産品,真是令人尊敬。bell-labs70年代就提供了實時記憶體資料庫,那時候oracle的性能還不行,就靠這個記憶體資料庫,lucent曾經用100行代碼掙了10億美刀。

劉睿民:tuxedo非常經典。寫tuxedo 的jim gray是我在tandem的導師。後來tandem 的tpm也是他寫的,非常的牛逼。

武新:tuxedo是好東西,當年我在oracle内部曾建議收購tuxedo,結果被bea收購了。後來oracle一起收購了。

c陳新河,聯盟副秘書長;《軟體定義世界,資料驅動未來》@武新 再次感謝武總的精彩分享!

【中關村大資料産業聯盟主旨與目标】

落實國家戰略,聚合産業勢能,促進商學互動,

助力企業成長,倡導資料倫理,探尋數字文明

<b>原文釋出時間為:2014-04-06</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>