天天看點

資料“土豪”電信雲告訴你,如何“玩轉”資料生态

近日,T11 2017 暨 TalkingData 智能資料峰會在京舉辦。本屆大會以“知機識變,有唐之盛”為主題,有來自不同行業的資料科學家、分析師、企業管理者參與,共同探讨大資料與行業結合的技術趨勢、場景應用、前沿案例,助力傳統企業轉型為資料驅動型企業和,推進行業生态建設。

其中,在智能資料服務分會場,電信雲大資料事業部副總經理吳章先分享了電信雲在開放共享、共建資料生态方面的經驗。

在天翼大資料方面,吳章先表示,在建構大資料能力上有以下三個方面較為關鍵:

第一,分布式資料中心。所建的大資料分析節點需要區域化,甚至有多個節點,不同層級。

第二,資料層面。所有應用服務提供商或行業資料能力提供商,他們的資料次元一般是依托于生态鍊或應用服務産品。營運商資料源基本上覆寫了廣泛領域,但在資料方向的深度還需要進行挖掘。

第三,建立資料平台。由于電信營運商的特點是整個資料産生的節點分散、規模巨大、種類多,是以要有卓越的資料治理和平台營運能力。

而在建構資料生态上,在他看來,“在大資料開放合作領域裡,這兩年我們看到從整個行業生态上,離真正資料打通還比較遠;其次,如何通過平台賦能,來實作真正資料的開放融合也是目前難以解決的問題。”,這些挑戰都需要在未來引起重視并找到有效解決方案。

以下為吳章先演講内容,雷鋒網(公衆号:雷鋒網)做了不改變原意的編輯:

在三年前,我參加中國營商大會,聽了 Google 一位總經理介紹大資料領域裡面土豪的時候,畫了四個象限,把三個營運商劃到了土豪象限裡面,就是擁有資料,不怎麼會玩。

經過這三年時間,我們在逐漸摸索,利用營運商已有的一些資料成果,去想怎麼更好的服務社會。在這當中,我們也發現整個資料如果不進行打通,或者僅僅以某一個企業自有資料去做很多服務時,都會或多或少碰到一些問題。

首先,給大家介紹一下天翼大資料的情況,第二,站在平台角度看一下我們如何建構資料生态。

天翼大資料發展概況

大家最早用固話,都是用電信的固定号碼,現在也有一些移動,以及在很多家庭裡面用的 IPTV,包括酒店裡面用很多内容的機頂盒,都使用的是電信的服務。所有這些服務裡面都脫離不了最重要的基礎,很多企業在大資料領域的經驗,他們所做的所有應用,所有大資料分析能力,實際上都要構架在一個基礎設施上面,而中國電信擁有全球最大規模的大資料基礎。

從我們目前跟很多行業專家、行業技術團隊溝通時,發現有幾個方向可能在未來在建大資料能力方面是比較關鍵的:

第一,分布式資料中心。可能我們所建的大資料分析節點需要區域化,甚至多個節點,不同層級,包括我們今年跟國家幾個部委溝通時,都發現有這樣的需求。電信的“2+31+X”的技術機構,再加上我們已經在資料中心專門承建 DCI 網絡,能夠滿足大家的需求。如果大家了解的話,應該知道中國電信最早 163 到企業 CN2,到現在 DCI,有三張底層的骨幹網支撐大家的基礎能力。

第二,資料層面。所有應用服務提供商或行業資料能力提供商,他們的資料次元一般是依托于生态鍊或應用服務産品。營運商資料源基本上覆寫了廣泛領域。從接入層面來講,不管是家裡的寬帶,通過移動網、IPTV以及其他一些設施在接入營運商服務還是其他行業服務時,都會有大量資料産生,這也是我們營運商本身在資料源的優勢。整個覆寫層面,不管是在時間空間上,還是本身使用場景上,都是比較全面的。

現在在資料領域裡,營運商的資料具備資料面比較廣,但是它的資料在某一個方向深度不夠的特點。目前,天翼雲已經累計超過 30 個 PB 的資料,日處理量超過 200T。

第三,要處理這些資料,就需要有一個能力強大的平台。我們有卓越的資料治理和平台營運能力,因為電信營運商的特點是整個資料産生的節點分散、規模巨大、種類多,是以我們在資料治理、資料平台營運上積累了很多經驗。

經過這三年的治理,我們形成了一個非常穩定的資料生産線,在很多行業,目前尤其跟我們比較類似的一些部委,如衛計委,他們的資料跟我們特點非常相似,需要有一整套設施來幫助進行處理。

此外,依托這些資料,已經形成了非常多的産品和解決方案。我們在三年裡有 4+1 産品體系,十大行業解決方案。從我個人經驗來看,在 2015 年剛發生上海踩踏事件時,利用我們的資料幫助政府做人流熱圖,2015 年開始,我們發現在景區旅遊,依托營運商資料可以做很多事情。

今年我們發現通過一些資料打通,包括我們在景區裡面跟 TalkingData 進行合作,把一些網際網路資料和營運商資料結合,通過更好的資料模型能夠更精準預測或分析出景區人群整個情況。現在,我們還在更宏觀的一些領域和更微觀的領域有了更好的發展。

4+1 産品體系裡,現在有一個底層 PaaS 大資料分析平台,叫飛龍平台,是雲數一體的大資料平台。這裡不僅僅是雲端,大家可以利用這個資料平台進行相應資料分析,進行資料産品化,進行資料對外輸出,這個大資料飛龍平台也可以提供給相應企業、相應合作方,部署到他們自有的企業IT設施裡進行業務的支撐。

如何建構資料生态

回到今天的主題,我覺得一下幾個觀點非常正确。首先,現在在大資料開放合作領域裡,目前就我個人來看,還是處于非常初級的摸索階段。我們都非常希望資料流通、資料安全、資料隐私等等問題能夠通過很好的方法來解決,但實際上,這兩年我們看到從整個行業生态上來看,離真正資料打通還比較遠。我們看到幾個重要的問題裡,從能力支撐到平台,到資料,到安全,可能首先要從基礎的能力上去解決,這也是我們今天在第二部分裡面給大家去分享的。

其次,如何通過平台賦能,來實作真正資料的開放融合。用區塊鍊的技術,能不能解決在資料分享裡資料流通性、安全性問題,因為資料本身是可複制的,一旦進入流通環節,資料價值馬上會以指數級别消減。這個問題我們看到所有擁有資料的公司非常關注,這也是難以解決的問題。

在過去三年時間裡,我們對資料,通過平台來進行相應的安全性加強、安全性營運,同時我們也跟很多行業合作夥伴進行了相應嘗試。通過在平台功能上、規則上、管理上的措施,已經看到了怎麼能夠真正把資料流通做下去。

目前,我們在天翼雲整個雲端平台上提供了一個一站式開放服務,包括給資料提供方、産品開發者、客戶提供了完整的一整套業務支撐體系。我們堅持一個原則,資料擁有方對資料加工、資料開放、資料的營運,擁有絕對的權力。也就是說資料擁有方在我們平台上上傳資料,對這個資料進行加工操作,都是資料擁有方自己去處理的。在上面,我們也提供一整套完整的,包括開放營運、安全的整套機制。

在平台保障上,通過營運商強項,在營運服務上給我們的合作夥伴、資料合作方提供相應完整的服務,不僅僅是有營運服務,還有平台能力服務,還有一些産品開放政策。過去三年,中國電信天翼雲針對我們的資料,已經形成了一整套機制,形成了相應服務能力,給我們的合作夥伴進行開放。

在政策上,我們在整個平台裡形成了五分一統,很多資料擁有方,尤其是黨政企業,還有國企,他們的資料本身在資料IT能力上面略弱,我們通過整套機制,從分類、分級、分型、分布、分權已經把資料整個加工、資料處理、資料開放形成一整套管理手段。在對外輸出時,通過統一出口,使得我們資料應用方在對外服務的時候,能夠實作可管、可控、安全可靠,能夠使得我們通過這個開放平台,快速的把資料合作、資料共赢、資料融合做下去。

營運保障體系上,通過完善大資料的開放營運,從業務切入詳細去幫助應用需求看它對資料的分析,在營運閉環上,通過各個不同資料環節,我們在審計安全上,在日常營運維護上,是否可靠,是否正常。我們在對外服務方面,也有很多不同的方式,不管是雲托管方式還是私有系統方式。在底層,我們有彈性的成長過程,資料從一個節點到另外一個節點,甚至多節點服務,依托中國電信雲網融合的方式都可以很友善、很快速的支撐。

我在過去交流所有場合裡,大家最擔心的還是安全問題。對有一些企業來講,安全性問題意味着财富,意味着資産流失,對有一些企業或政府來講,安全性問題意味着他頭上的烏紗帽或屁股下面的位子,大家非常關注,每一次決策都非常謹慎。我們在整個天翼雲大資料開放平台上,平台賦能很關鍵是在安全上提供全生命周期的安全保障,不僅僅是從I層,從實體安全保障、網絡安全保障、主機級安全保障、應用級安全保障方面,提供整個安全服務能力。

此外,我們對應用的全周期也是提供相應安全服務。這種安全服務不僅是在技術上進行展現,同時也從我們管理機制,同我們整個對資料加工的分級分權,以及資料加工一整套安全流程去保障。

進行了所有安全加強以後,會帶來一個問題,我們在資料分析時,備援度或靈活度去哪裡了?中國電信大資料平台上,有一個有效的機制,通過互信融合,當我們需要對比較原始的資料進行融合分析時,比如 A 客戶資料和 B 客戶資料要在一起進行分析,然後産生最後的分析結果,這個時候怎麼辦?

我們會在平台上配置設定一個臨時空間,臨時空間裡不能夠進行資料的對外輸出。它可以在臨時空間裡面對相應資料進行融合分析,分析完的結果通過審計以後再輸出,輸出隻是分析結果,一旦分析結果輸出完以後,這個空間我們就會把它銷毀掉,是以所有使用者原始資料都不存在流失和被盜風險。所有操作我們也會通過日志和審計功能,讓資料擁有方能看得到。

我們前面說五分一統,資料分析靈活的機制,是確定這個平台上資料可以進行共享融合,能夠進行分析的。

安全保障領域裡,我們有相應的安全合規功能,從隔離、脫敏、辨別、授權、審計五大方面,幫助雲公司自己,還有我們的客戶進行整體安全後的保障。從隔離中,按功能分類,從資料敏感區域裡給客戶提供相應的工具,然後到脫敏、辨別、授權、審計,有一整套完善的流程。

下面說一個案例。在整個平台上,我們跟一個 AI 公司一起做的流程是這樣的。它有一些外面金融行業的資料,在我們平台上用雲公司自有資料,通過建構一套 AI 元件,來進行整個融合分析。通過這種分析,一方面我們避免了大量各種不同産品需要專家進行設計、模組化,而是通過 AI 方式,幫我們通過機器解決,來真正實作業務場景的輸出功能。從實際效果來講也非常好,從千分之二提升到千分之五的使用者轉化率。

最後希望通過建構一個完善的,比較強大的平台,通過應用驅動資料的模式,建構這個資料生态。我們希望可以跟所有業内企業、業内客戶一起在這裡共同建構完整的大資料生态,真真正正把大資料的價值對行業的影響能夠做到最好。

本文作者:王金許

繼續閱讀