以“大掌控 大智彙 大洞察”為主題的微軟大資料解決方案媒體溝通會在京召開。 會議上來自微軟高管與國内數十家媒體分享了微軟在大資料領域的最新研究成果、解決方案,以及對于大資料未來趨勢的專業洞察。 來自微軟大中華區首席雲計算戰略官、微軟大中華區副總裁兼市場戰略部總經理謝恩偉、上海複旦大學附屬中山醫院資訊中心主任陰憶青、中國銀行股份有限公司資訊中心助理總監袁俊德,福建高速公路有限公司監控中心主任王輝等知名企業cio、服務商代表共同就大資料熱點話題進行了探讨。以下是大資料節選:
陰憶青:我是來自上海複旦大學附屬中山醫院,我個人是學臨床出身的,沒有任何的技術背景,是以如果今天說錯什麼的話,請大家多指正。
謝恩偉:從技術這個領域來說,更多的是怎樣能夠支撐起廣大使用者的應用場景。
袁俊德:我來自于中國銀行總行資訊中心,主要是負責中國銀行在全球所有的金融業務系統的運作。我是技術出身,典型的it男。非常高興能夠參加這個活動。
王輝:非常高興參加這個活動,我叫王輝,來自福建高速公路,我們的總指揮部和公司是兩塊牌子、一套人馬。我的工作是負責福建省高速公路機電資訊化建設和營運工作,我學的專業是通訊工程。
謝恩偉:我們剛剛過完十一黃金周,我是躲到上海,一件事情都沒做,就在我爸媽家吃、休息、跟朋友見面。後來看到很多微網誌、微信上說到了交通堵塞等等方面的一些問題,我這裡有兩個資料很有代表性,1.76億輛次的高速出口小客車流量在十一黃金周,比去年增長10.2%。我想先聽聽王主任的一些想法,大資料這個方面在交通領域有什麼最新的應用和進展?
王輝:非常高興能給大家介紹一下。我簡單介紹一下福建高速,我用三個資料來介紹福建高速公路,投資總額2600億,已經完成了,到年底可能接近3000億。第二個資料,通車裡程現在是3600,到年底是通車4000公裡的高速公路。第三個資料是流量資料,福建省高速公裡的裡程和規模在全國是中流,基本上是排在中間的位置,今年10月1日,我很不幸,每個節假日都不能休息,要在指揮中心值班,那天我們突破了200萬的車流量。上個星期我還在交通部活動,跟幾個省市一起開會研究節假日情況的時候,最高的應該是廣東、江蘇、北京這一帶,其中江蘇省已經突破一天400萬輛。
謝恩偉:在交通方面,特别是在資料這個領域當中,現在已有的應用有什麼樣的進展?
王輝:我正好是交通運輸部路網标準組的成員,我一直在參與國家在公路網管理的這項工作。從國家層面來講,去年國家在交通部下面成立了一個路網監測與運作處置中心,這個是過去沒有過的,因為過去交通部管建設,不管營運,現在他已經管營運了,跟鐵路、民航一樣,開始全面營運。省裡面也同樣,在省交通運輸廳,每個省等成立相應的機構,因為我們有三大重要的工作:第一,路網的日常管理,包括收費,收費也是我們很重要的工作,我們每一年的收費額大概是110億,每年都以百分之十幾在增長;第二,目前還有一項重要的工作,就是應急處置,因為高速公路10萬公裡已經通車了,現在社會關于通行安全這塊的要求非常高,是以我們有應急處置系統,不管是國道、城市道路,當有情況的時候,必須快速的進行處置、救援,這裡面有生命的救援,也有道路暢通的救援;第三是服務,國家這個層面上,包括我們省裡面,已經把為上司服務轉為為社會服務,因為老百姓要出行,他必須要快捷、便利、安全,這是他們的基本要求,我們在這塊做得還是很不夠的。剛才主持人說到,我們采取了什麼措施,應該這麼說,在道路管理上,你們每次出行都有一個強大的後勤隊伍在為你們服務,就是基本的服務和救援,當然我們做得還不是很夠。
說到大資料,不管是高速公路還是普通公路沿線,開始逐漸為滿足高速公路或普通公路的運作,在投入大量的資金,來做一些傳感器,來收集道路的狀态,收集出行的資訊。這些資訊幹什麼?這就是大資料的來源,最後經過一定的處理,來提供給我們的人員。目前的手段也還不是很好,剛才一個專家在說,他是用計程車gps,gps是很重要的一個資料,我們也在用,但是它有限,隻是裝了gps的營運車輛才有,但是它占的比例還不到5%,很小。更重要的是我們需要了解所有車的運作情況,否則我們不進行日常的控制,應急突發事件的救援就無從談起。全國都是類似的情況,城市道路可以建得好一點。高速公路面積很大,要想控制得很好,依然是一個挑戰。
謝恩偉:從福建高速的角度來說,他收集的資料是非常龐大的,也有不同類型的資料,有的資料是拍照片的影像資料,有些資料是從gps得到的地理位置資料。在這些資料當中,為将來的交通管理也會帶來很大的益處。從2012年開始,微軟已經跟福建高速,特别是在sql 2012年上面已經有了進一步的合作,我們也非常期待在這個方面能做更多的動作,從分析、示範、視覺化、決策等方面,都能夠幫助福建高速有更多的成績。
談完交通,要談一下另外一個跟國計民生非常有關系的行業,那就是醫療行業。今天碰到一個上海老鄉,我們在台下還在聊上海話。陰主任,能不能跟我們說一下,大資料在中山醫院,您那邊有什麼樣的應用、設想和實踐。
陰憶青:不管是銀行還是高速公路,我們it起步相對晚一些,上世紀90年代才剛剛起步。最近幾年真的是飛速發展,這是有賴于國家政策的推動,取得了非常好的成績。
從具體業務來看,我們既有傳統的存在excel的資料,當然也不能用excel來判斷是不是結構化,我看到現在有人用excel來畫圖,有人用它來做裝修計劃,是以真的是無所不能。在我們院裡面是有結構化的資料,像大家門診的挂号資料,還有我們的醫囑,這些資料現在越來越多的被放到資訊系統裡面,剛開始的時候,我們都是從收費開始,後來就關系到業務,再後來關系到一些臨床的資料,也開始出現在這裡面了。還有一些我們認為非結構化的資料,或者叫影像的資料,這個在體積上是比較大的,我們原來有單幅的像胸片的圖像,後來有了ct和磁共振的圖像,這些資料越來越大。最近我們又嘗試去掃描一張病理切片的圖像,平均一張病理切片,如果我們去掃描的話,一張就是1g。但是這1g的資料,你是很難去做快速分析的。就像剛剛大家聽到總裁說的,海水很多,但是并不是你舀起一口就能喝,你要做很多模式的判斷,然後對模式進行分析。
中山醫院在上海也是一家中等規模的醫院,我們一年大概平均有300萬左右的門急診人次,有8萬左右的出院人次,每年接近6萬次的手術數,這個量聽上去好像比較多,但是在上海可能有30多家像我們這樣大小的醫院。在全國而言,我們隻能算是一個中等偏小規模的醫院。現在全國最大規模的醫院在河南,因為河南是人口大省,單體醫院超過7000張床位。是以從醫院的資料來說,業務量大,它的資料量必然也大,還有就是不是相同的醫院,我們會把它聯系起來,上海申康推進了醫聯的項目,在上海38家三級甲等醫院,也就是目前中國級别最高的醫院,我們都連接配接在一起,38家醫院裡面,病人的資料可以互相溝通,病人到另外一家去看的時候,他可以看到前一家醫院上傳的化驗報告,你用了哪些藥,甚至你檢查的影像資料。是以從醫聯系統來說,累計了非常大量的資料,這些都能為我們以後的分析提供非常好的基礎。是以醫療在現階段是一個打基礎的階段,需要後續持續的投入來做一些分析。
謝恩偉:這對我來說真的是一個福音。我在2006年的時候,正好那年春節我在海外,回來之後我爸告訴我,我外婆住院了,他跟我解釋了一下整個住院的過程,從她挂号,從急診到複診,都是有很欠缺的資料的連接配接。比如她在急診上做了一個驗血的報告,在複診的時候不能再采用,還要重新再做一次,她以前拍的照,在不同的部門要重新再做一次,這樣是一種資訊的斷層,在七年以前看得非常清楚。這對我來說是一個非常重要的改進,在将來這樣一個時間點,能夠把這些資料串在一起,怎樣能夠挖掘更深的價值。
陰憶青:現在這個問題已經基本上解決了,臨床醫生可以看到曆次的就診資料。臨床醫生會根據專業的标準去判斷這些資料是不是仍然有價值。舉例來講,可能那時候的驗血報告我們認為時過境遷,病人的狀态改變了,我們需要重新再去做,但是至少我們能夠看到,然後能夠判斷。
謝恩偉:我也非常期待能夠通過微軟的技術,在中山醫院當中有更多的突破。剛剛講了交通和民生,讓我們的技術男談一下,特别是在銀行這個領域當中,實際上我們跟中國銀行合作蠻長了,我也想聽一下中國銀行現在大資料應用的狀态。
袁俊德:如果說應用計算機,從國内來看最早的是國防行業,下一個可能就是金融行業。剛才謝總講我們跟微軟也是合作很長的時間。
中國銀行作為國内國際化程度最高的一家銀行,從一開始我們跟微軟的合作就是一直是正版,我們從來沒有用過盜版。是以作為微軟相關産品的應用,我們也是有一個逐漸的過程。銀行這個行業it的應用可以算是企業級的應用,微軟最早從我們這兒的應用是從辦公做起來的,就像office相關的這種軟體。随着微軟在企業應用方面的一些發展,我們在核心銀行的領域,特别是在前端領域,有了非常大的應用。包括我們現在核心銀行系統所有前置的系統,目前采用的都是微軟的基礎環境在做。後期我們在營銷分析這些方面,也是采用了微軟的解決方案,比如我們全球的統一客戶經理的平台,現在也是在做。
從應用的範圍上來看,從一開始的辦公,到我們的企業級應用,到剛才講的全球客戶經理平台,跟我們的大資料應用有很密切的關系。作為銀行來講,因為銀行的資料基本上還是以結構化資料為主,是以我了解,大資料的概念和資料倉庫的概念還是不太一樣的,因為它更展現在資料的多元化,以及如何高速的對這些多元化的資料進行檢索,以及如何把檢索出來的資料通過分析加以使用,我了解這是跟大資料相關的一些内容。
我們現在的全球客戶經理平台,目前這個階段也是在一個側重于應用的階段,我們主要還是依靠目前銀行一些結構化的資料,對我們的客戶進行一些定向的營銷,對他的業務、消費習慣進行一些分析。但是随着現在競争的加劇,特别是從移動互聯以及現在第三方支付等等各個行業,其實金融這個行業競争越來越激烈,是以我們從各個方面來講,也是迫切的想盡量多的去掌握客戶的資料。目前我們還有一些在自身方面做的不足的地方,比如我們的理财系統,比如我們卡的系統,或者是我們彙款的這些系統,有些資料都是比較分散的。從應用上來講,我們在目前的這個階段,正在把這些内部的系統整合起來,把它關聯起來,來做更好的應用。
我們現在也在通過網際網路的金融,以及我們現在所建設的網絡銀行等等這些方面,把這些客戶的資料搜集得越來越多,當然形式也會越來越多,資料的結構也會越來越複雜,是以這些東西都需要大資料去解決這方面的問題。
謝恩偉:袁總剛剛談得也是蠻對的,在金融行業現在有更多的競争,特别是當移動網際網路出現之後。除了自己已有的一系列的海量資料之外,就像我剛剛展示的數字營銷,實際上也會有一定程度的貫通,不光是現在已有的資料,怎樣能夠把外部的資料更好的整合在一起,從客戶的挖掘等等方面再做到一個新的高度。現在還是有很多的方式,可以有更快的提升。
我剛剛在跟各位聊的時候,也注意到另外一點,各位手裡都是有非常重要的資産,那就是資料,我們有交通的資料,我們有銀行的資料,我們有醫療方面的資料。這個概念微軟也已經在提,我們在windows azure這個平台,前段時間退出一個概念叫做資料市場,當有一些資料不是太敏感的話,可以把它作為一個資産,能夠又産生經濟價值的時候,怎樣在雲平台之上把這些資産放出來,能夠讓更多的應用開發者或者合作夥伴在這些資産上做到更新一代的創新,也是一個很好的盈利點。我們在幾年前也做過這樣的事,微軟在做超算的時候,比如跟金融行業有關,我們把所有在美國的銀行,10年8000家銀行的資料,現在都已經放在網上,就是以前的一些經濟趨勢的資料。通過這些資料的挖掘,也可以做更進一步的分析,或者應用。各位手裡有一個金礦,不光是怎樣能夠幫助各位在自己的行業當中能夠做到很好的發展。
剛剛已經談到現在已有的一些狀況,如果有一件事或者兩件事大家預期非常希望做的,這個會是什麼。從大資料的層面上,将來你非常希望通過大資料完成的一個場景是什麼,能不能跟大家分享一下。
王輝:剛才說到交通,交通行業這幾年一直是社會的熱點,不管是節假日出行,還是經常出現一些大的事故,重大傷亡,都是熱點。我們在管理上感覺任務是越來越重,社會對我們的要求是越來越高,另外就是一些應急突發事件,我們的壓力也是越來越大。說到壓力,我們每一年都有人因為施救不力,來追究我們的責任,我們這塊壓力大就是需求很大,但是确實作在還沒有辦法達到這個要求,這是實事求是的說。因為交通行業的資訊化也是剛起步,跟剛才醫院說的情況是一樣的。
像我們高速公路,要做成大資料,首先要做一件事,就是把所有車的資料彙集在一個點上,才有大資料的概念,如果分散在各個地市,就沒有大資料的概念了,這很難,要投入大量的資金和做大量的工作。這跟醫院不一樣,我們要做很龐大的通訊網絡。
我們涉及的領域非常多,剛才專家介紹了計程車,北京還有地鐵,還有航空、鐵路,還有海上,這麼多資料要整合在一起,然後迅速做出一些可以給上司或者給指揮人員、排程人員提供依據的,還是很不容易的。我們跟微軟公司合作很長時間了,我們也投入了大量的資金,我們的資金比你們兩家會大一點。我建一個資料中心,光土建就花了4000萬。但是沒有辦法,因為将近3000億的資産,肯定要幾十億來支撐,否則就支撐不住,這是客觀的情況。
剛才主持人講了展望,我們的想法是要迅速的把資料搜集上來,基礎設施要大量建設,傳感器要大量建設。再一個很重要的就是,微軟剛才在介紹大資料,我聽了也很受啟發,如何把這個大資料經過高效率的檢索、處理、存儲,最後形成我們決策的重要依據,這是我們目前面臨的最大的一個問題,是以我們願意跟微軟合作,今年上半年我們還有一個協定。這塊很有挑戰性,不光是我們,任何一個高速公路都有這個壓力,壓力都很大,平常很忙,節假日還不能休息,因為離不開。我們有幾次事故,省長都跑到我們的指揮中心,因為堵得一塌糊塗。這兩年好一點了,節假日免費了,免費反而暢通了,因為不收錢過去得就快了,但是又有新的問題,就是路上事故多了。我們的想法是,這是一個起點,我們希望微軟的大資料能給我們智能交通帶來智慧的翅膀。謝謝。
袁俊德:金融這個行業從目前來看,基本上所有新的it方面的概念,首先就要在我們這兒來落地。在大資料這塊,從我們這方面來考慮,主要有幾個方面。
第一是用于營銷。目前競争太激烈,是以營銷這方面需要掌握客戶各個方面的資訊,能夠有精準的營銷。
第二是風險控制。營銷出去,還得要把風險控制好,這裡面無論是對公的、對私的,包括目前各個方面來看,無論是國際的、國内的,各個方面針對于風險的管理是非常高的。是以我們每年用于風險控制的投資也是非常大的,是以在這塊也是想借助于大資料的概念,去做相應的工作。這兩樣是并行的。而且我們現在也逐漸開展這方面的工作。
第三是我們的績效,就是整個銀行各個部門、各個人的績效。這項工作對于整體銀行業的營運是非常關鍵的一個内容。
再說具體一點,比如我們資訊中心每天也會産生大量的運維資料,我們的伺服器會産生相關的日志,我們的應用會産生海量的日志資訊,包括我們的交換機、網絡、存儲等等。這些資訊對于我們的日常運維非常重要,在銀行資料中心的運維過程中,實際上是精細化分工的,我們有上千人,有專門負責伺服器的,有專門負責作業系統的,有專門負責網絡的,有專門負責應用的,分工非常細。但是我們在排查一項故障的時候,你從網點上看,說這個業務做不了了,但是它會牽連到這條端到端的鍊路上的各個環節,它的分析就變得非常重要。在這個過程中,每一種裝置、每一個系統産生出來的資訊,它的格式是各不相同的,是以我們這項工作就變得非常棘手。我們現在也在考慮做相關的工作。作為大資料這塊來講,無論是從我們業務發展層面,還是it自身的方面來講,都是下一步非常重要的一項工作。
謝恩偉:在這個環節當中也可以看到,很多跨公司的需求都是蠻一緻的,怎樣通過數字營銷掌握更多的客源,怎樣通過内部效率來掌控業績的産出,以及内部成本的降低,來提高我們的營業額。很多應用場景都是跨界的,我們希望跟中國銀行能繼續合作,能做得更多。中山醫院陰主任這邊有沒有一些新的想法。
陰憶青:我想先舉一些國外的例子,因為國外在這方面的起步比較早。我們曾經看到美國的一個醫療集團,某一種藥物上市以後,他就注意到,凡是使用這個藥物的病人,可能有更多的機會發現腎功能異常,他們通過這個機會,在集團内部把這個藥停用,直到停用兩年以後,美國食品藥品局發現這個藥可能導緻腎功能異常。因為這個藥在臨床前樣本量不是很大的情況下是發現不了的,是非常大量的病人使用的情況下,才能發現這個異常。我們覺得這是一個非常好的例子。
謝恩偉:這跟雅安的狀态很相似,你看到8年之後,才能看到一些規律。
陰憶青:反過來我也覺得,可能要給大資料潑一些冷水。為什麼要潑冷水呢?就是它的驅動力在哪裡。我們注意到很多反複舉例的故事,往往是那家it公司有非常大規模的基礎架構,意味着它有足夠的處理能力,然後它有尖端的人才,不光是it專家,很多時候背後是數學家在支撐着這樣的分析、模組化,另外它自己本身擁有海量的資料,像谷歌、twitter,它都是擁有海量的資料,是以他們能去做這些事情。有那麼幾個成功典型的範例能夠給大家看,激起我們非常美好的願景,說我們可以往那邊發展。但是真正落實到具體哪家醫院做這件事情是非常吃力的,我可能沒有足夠的投入去做這件事情。另外一個方面,剛才說到安全管制,上海申康已經累積了這麼多患者資料,有人就說,申康為什麼不做這個事情,上次我看到申康的高主任就提,不是我們不知道這些資料可以利用,而且利用這些資料,我們要遵從很多方面的法律和法規,因為很多時候是牽扯到患者的隐私,我們能不能這樣用,我們是不是事先征得了患者的同意。另外,當我們使用跨院資料的時候,每個醫院都有各自不同的看法,我們是不是能使用。在實際操作層面,故事遠遠沒有那麼美好,甚至包括我們跟中國銀行也有一些合作,我們希望患者能在醫院裡面直接使用銀行卡,我們彼此有通訊,彼此有交流使用者的資訊,這些使用者對銀行來說就是一個銀行卡使用者,對我們而言就是一個患者。是以當時我們交換的時候,嚴格的界定,醫療的資料不能到銀行那邊,金融的資料不能到我們這邊。銀行給到我們的是說,交易成功還是不成功,我們不會去查這個人有多少存款,銀行這邊也不會查詢這個病人在醫院看了什麼病、挂了什麼科,這些也是不恰當的。
謝恩偉:您總結得非常好,一個地方是怎麼把資料分析的門檻拉低,把它平民化,跟我們今天講的怎樣通過excel,怎樣通過一些簡單的手段,讓大資料視覺化,微軟也是抱着這樣一個精神,怎樣用現在已有的工具,讓資料更加視覺化。另外是整個it基礎設施層面的操作,像高速、中國銀行和中山醫院,都是有蠻深的it水準,如果要落到中小企業這邊去的話,挑戰會更多一些。這塊微軟也在看,比如像windows azure公有雲,怎樣能夠幫助一些企業馬上上手。又會連接配接到最後一個話題,就是對于整個資料管理監控的程度,這實際上是一個非常大的話題,不光是跨企業,還有跨國界的一些資料管理的policy。
今天非常感謝三位非常重要的客戶,能夠在這個舞台上跟我一起分享大家對大資料的展望,跟微軟合作的願景,也非常期待能夠繼續在微軟的技術平台上幫助各位在應用場景上達到一個新的高度,真正把大資料落地、平民化,把資料管理達到極緻。
<b>原文釋出時間為:2013-11-02</b>
<b></b>
<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>