天天看點

大資料的技術趨勢與應用前景

大資料的技術趨勢與應用前景

國家自然科學基金委員會副主任、 中國工程院院士高文教授,在第二屆中國ott tv峰會上,以《大資料的技術趨勢與應用前景》為題作主題演講。高院士從寬帶中國戰略和資訊消費的政策層面,提出ott tv發展正面臨一個重要的發展機遇。而基于顯著性計算實作精準廣告,基于大資料平台智能搜尋實作付費收看,是兩個可能的盈利模式。同時,ott tv也對大資料和編解碼技術提出了新的技術挑戰。

如下是國家自然科學基金委員會副主任、 中國工程院院士高文先生,題為《大資料的技術趨勢與應用前景》的演講全文:

講到大資料趨勢。我想從兩個方面來說一說,不敢太跳出我本行說問題。是以會在進本題的時候,裡面裝一點東西。我講兩個問題。

第一個,是關于現實形勢下,今天研讨會主題的ott tv,到底有什麼樣機遇;

第二個,講講ott tv在新形勢下,資訊消費所遇到的技術挑戰,裡面會涉及到大資料。

新的形勢大家都知道,8月1日和8月8日國務院連發兩個文,第一個是關于寬帶中國。對于剛才張總談到支援付費業務帶寬是先決條件,在中國把帶寬問題解決。8月8日這個文,擴大資訊消費這個檔案就提到這個問題。

8月1寬帶中國戰略釋出。大家如果關心的話已經知道這些資料(ppt),按照國務院部署從2013年到2015年,到2020年我們國家寬帶接入帶寬使用者數以及貸款寬度會急劇的發展增長,實際上從一個側面國家在拉動我們新的經濟增長方面,實際上在資訊領域是一個縱軸戲,資訊領域通過寬帶中國建設把基礎設施,把以前主要放在鐵路、公路、機場這種設施一定基礎設施,未來發展和資訊有關的問題向這方面轉移。

8月8日這個文實際上就是說要提升資訊消費,希望通過資訊消費來拉動内需。如果說8月1日那個文是政府主導性對經濟推動做法,8月8日實際上是拉動、擴大内需。什麼是資訊消費?顧名思義資訊消費隻要資訊方面花錢就是資訊消費,資訊消費有比較嚴格定義。大家上網一搜百度百科裡面分析消費有一段定義,認為是一種直接或間接以資訊産品和資訊服務為消費對象的消費活動。實際上是有一套經濟學理論的,經濟學理論裡面有四個過程,叫做資訊需求過程、資訊戰略過程、資訊主體過程和資訊載重。四個過程裡面都是産生經濟活動,經濟活動涵蓋資訊消費全過程。

維基百科把資訊消費敲進去,目前詞條沒有建立,有興趣可以建立這個詞條。有一個mba管理方面有智庫百科資訊消費管理學角度給出比較準确定義。資訊消費這件事,實際上是整個從需求到底是什麼?要想占有你要付費。你要處理也需要有處理的基礎設施和處理的費用,你要去看或者再生出來也是需要産生消費行為的,是以這個東西實際上整體叫做資訊消費。剛才我也說了,我們看國務院8月1日、8月8日這兩個文,基礎設施建設寬帶中國,另外資訊消費實際上是拉動内需這樣一個動作。

這兩個文,實際上給我們今天做ott tv實際上是産生非常好的推動作用。ott我想大家都是這個領域熱心者或者專家,ott tv并不簡單把機頂盒加tv一個更新,因為ott open the top做機頂盒可以使用。open the top比ott tv更宏觀一點,open很講究,stv和營運商綁定的,有營運有stv,沒有營運商這個沒有用。ott并不和營運商綁定,實際上是開放東西,開放東西這裡面很多理念上開放一點認識。一般ott tv一般解釋程一體機,把以前機頂盒塞到計算機裡面,通過網際網路接入直接就可以去進行節目的通路等等,這裡面有三個比較重要的概念。

一個概念作為計算機廠商,實際上應該在網際網路領域查找切入點。

第二對營運商門戶是切入點

以前多個營運商在現在變成一個,也是營運商是網際網路營運商提供是門戶。還有一個很重要是平台,大家知道一個平台,實際上ott其實對平台很好機會,對今天來講我想工業非常大。一方面就是說本身廣電業務發展這些年滞後很多,我們說20年前基本中國電信和廣電市場年銷售額差不太多,多少有點差别,但是不是成幾倍差别。你要看今天,2012年三大營運商三大電信營運商年銷售是一萬一千億。但是整個全部有線網絡營運商整個收入才660億,這個相差百分之十幾倍,這些年整個業務發展不平衡導緻這樣結果。

這個現象不可能長期存在下去,有兩個可能性。一個可能性今後電信營運商業務可能有一部分被廣電營運商給分流的,電信營運商不是一萬一千億,可能是一萬九千億留向廣電營運商裡面。還有一個電信營運商總體銷售額略有增加,增加不太快,廣電快速增加。過去從660億增加到四五千億不是太大問題,關鍵怎麼做的問題。我想這裡面可能有很多機會,機會一方面國家要有政策傾斜,前些年國家有政策保護但不是傾斜。今後可能會有一些政策傾斜。當然前些年國家在三網融合方面一直是傾斜,但是這個東西市場上沒有見到好處,這次資訊消費希望這方面能夠有所起色這是講第一個問題。

第二個問題就是關于技術挑戰問題

在新形勢下,ott技術挑戰很多,有軟體方面挑戰ott用什麼作業系統、開發系統各種各樣軟體挑戰。也有硬體挑戰不管是一體機還是盒子、cpu用盒子硬體挑戰,蘋果用平台方向推動看起來不是很成功,小米大概也是這種做法這種套路,别人能想出其它一些平台思路,有一個東西肯定可行。誰足夠聰明給出一些比如說能夠和節目的提供者非常友好這樣一些環境,使得這些節目提供者願意在你平台上面創造節目,可能成功機會比較大。

我今天想說的是兩個技術挑戰

一個大資料挑戰

一個編碼工具挑戰

大資料挑戰

說到今天發言題上,實際上現在大資料目前還是還時興,我今年年初去基金委工作。第一件事就是接待專家,很多專家說大資料很熱,基金委多立一點大資料項目多放一點錢做研究,後來想聽一聽。結果至少有四個不同的人談大資料問題,搞資料庫談大資料,搞控制人來談大資料,現在很多控制領域很多資料,很多控制方案都是模型來模型去很少從資料來,可以通過大資料對于控制可能會有一些比較好的切入點。搞管理就說,現在金融等等領域資料量非常大非常多,這裡很多東西有規律,通過資料算法把規律找到,指導解決運作指導管理,搞數學人來,搞資料人說大資料是數學問題,怎麼樣把裡面最核心東西提煉出來,需要新的數學工具、方法。實際上大資料各個方面都有這個方面問題。

籠統來說大資料是三個v,第一個就是量 volume,大資料就是量比較大。第二個v velocity速度非常快,第三個多樣veriety,資料形形色色多樣性非常快,大資料裡面有一個hace理論,大家看一二三四。大資料理論上做比較完整反映特點一套數學工具。從處理流程來說資料産生,産生完以後對産生資料存儲,進行處理挖掘裡面規律性東西。然後把它進行應用指導是這樣大的循這樣一個過程。

大資料到底對我們現在ott tv帶來什麼?其實可以帶來很多東西。

第一個精準廣告,這是大資料最擅長東西。大資料裡面最典型應用,一個超市在賣嬰兒那種尿布地方,發現了統計起來發現一般買尿布人同時買啤酒,不知道為什麼很奇怪,後來想想有道理。在美國丈夫下班以後,不像我們都請月嫂,美國人養孩子都是夫妻兩個人事,丈夫白天上班,一般上班下班時候妻子就會告訴他,去商店給我買包尿布,買尿布想晚上回去晚上喝點啤酒,就一起買就一起付費,商業者很聰明,把尿布和啤酒緊挨着放,這樣 就一起銷售,實際上在我們ott tv精準廣告靠資料挖掘。

還有付費收看,付費節目也要進行大資料,如果不進行這個東西籠統說我收多少錢發展多少使用者,做起來蠻辛苦,還有其它電子商務、電子政物。

我集中講精準廣告,精準廣告推送一部廣告怎麼推,這裡很講究。推出廣告首先要知道推給誰,這個人如果是男的看電視不能推一些婦女用品廣告白推,不能推小孩的。就是說你要知道他是哪個年齡人,喜好是什麼?這個是可以靠資料挖掘,經常上網就會有你經常通路哪些網頁,根據這個東西馬上就歸納出來你大概是年齡段你的喜好是什麼?推送時候一定推送你喜好的東西,是以首先就說推什麼靠大資料已經很成熟一個技術。

第二個要點就是說往哪裡推?這個事情很有講究。一個廣告推出來推一個畫面上可以像現在電視一樣,把整個畫面屏蔽住,放廣告看不了節目,幾十秒鐘甚至是一分鐘,七十秒鐘全是廣告有時候大家很累。在視聽推廣告不能用那個方式,在畫面上推,畫面上推往哪裡推,萬一推的位置不好看不見就白推,推太好把最主要位置占據使用者開始煩你。一開始打計算機網頁弄一個廣告把最主要地方占住就很讨厭,千方百計把廣告關掉。有沒有辦法讓他注意到不煩這就是推廣告藝術,關鍵是說這裡有一套技術去做。最主要技術叫視覺顯著性計算,視覺顯著性計算最主要想法是什麼?就是說我一個視訊畫面裡頭我知道人第一注意點是什麼?第二注意點是什麼?可能我這個廣告要放在第三注意點。原來沒有第三注意點隻有兩個注意點,廣告産生一個注意點放在這裡頭。

人們看的時候第一注意點、第二注意點看,第三注意點餘光可以看到,這是最明顯這就是視覺顯著性。我們人看東西不是漫不經心随便看,一眼掃過去,什麼東西重點什麼東西非重點一下抓住,這點可以用模型線上,我們有一項向上的視覺顯著模型。當然還有跟它對應有一套自底向下顯著計算。

這是一個案例給你一段視訊通過剛才兩個來酸,在圖象裡面就說,大家可以看到這幾個點我算出來所謂視覺,人最主要的東西,像前面這地方有一個圈,這個視訊不管怎麼畫人眼睛看這兩個,其他看不不多。在馬路上人一眼看到這個車等等類似。通過這個視覺顯著性看是什麼東西可以分析出來,是什麼樣的畫面。有了這樣一些東西可以算出很多,任何給你一段視訊我可以算出來,等等就可以算出來,很多的顯著性。

這有一個車,其實真正人看的東西是在車門右邊這個東西上面等等,這有一個演員幹什麼,這是比較顯著的。這是更多的一些例子,就說這有一個人戴着眼鏡看,真正關注是他耳朵上方左上方人比較關注,有三個騎馬人,對這個兩邊人和右邊馬關注更高一點,花同時可以關注到。

經過這樣一些東西以後我們知道一個畫裡面有幾個顯著點,推廣告時候躲開這幾個。保證兩個顯著點第三個推出廣告,我視聽顯著點周邊地方就把廣告推出去。這是一個簡單嵌入式廣告,這是一個電視劇人身上帶很多東西,把這個東西廣告推出來,隻要眼往那裡一看,可以把你看的東西馬上放在這兒,這東西叫什麼哪裡有賣多少錢就出來。有一些追星族,年輕人搞時髦容易發生這種消費行為等等。現在付費收看大部分都是給定一些現有節目去做,現在電視台或者電影院正在放的東西去做,實際上有了付費這塊兒,把以前很多東西不太火的節目重新變回有可能。

剛才像我前面說的如果能夠很好把平台利用起來,實際上在這個平台上各種各樣閱聽人面不需要三千萬人同時看這個東西,可能付費有兩萬個使用者可以維持收回你投入成本,很多中小節目上可以采用各種各樣内容,使得這種付費更豐富一些。

現在就是說大資料多屏體驗,除了大資料多屏體驗,現在非常關鍵一個技術,多屏體驗有四月三屏有時候四屏,多屏體驗有很多技術問題,現在大家想到視訊流同步有同步技術,有幾個問題沒有解決很好,一個是螢幕比例,手機螢幕比例,計算機螢幕比例,比例不一樣。另外尺寸,手機大小螢幕和高清電視65寸電視螢幕尺寸不一樣,東西大小不一樣。65寸電視上看一個足球,同樣在手機上看足球,變成很下顆粒,看起來很費勁。另外還有幀的精準,在計算機這個東西不嚴格,這個東西怎麼去把它就是說能夠影射過來,還有計算複雜度,特别智能手機耗電很厲害,過于複雜手機電視就被消耗掉,這裡很多技術問題要去解決。

還有很重要技術問題就是編碼工具,編碼工具在這裡大家知道目前用比較多在我們ott tv上面h.264比較多,跟谷歌有關用vp8我們希望有些同ott tv角度編碼工具,說到編碼工具話比較長,我做十多年工作,就是說怎麼樣把量大資料給它壓縮很小,壓縮到一百分之一,兩百分之一,這樣傳輸存儲比較小。怎麼樣壓縮?原則就是空間、時間、編碼壓縮。

不同的應用實際上它使用壓縮的算法可以略有不同,我們現在一般說的電視或者電影這樣的場景視訊,現在h.26也好非常适合這種視訊,除了這種視訊還有其它視訊,比如說監控視訊、網際網路視訊,這兩種視訊兩種壓縮工具很合适不見得。從技術上有很多可以切入的地方。

我們說編碼工具,視訊編碼整個對于數字電視數字視訊發展前景巨大,從最早其的壓縮到50比1,把高清壓縮75比1,現在我們正在做比如說幾乎做完了把高清視訊150比1越容易壓,因為很精細,壓縮起來效率高一點,對4k視訊最有新h.265就可以做到450比1,品質幾乎看不到有損失,網際網路為了追求省點帶寬壓非常滿,1000比1也用,看還是可以看,如果嚴格按照比如說廣播的品質來看根本不允許,因為品質損失太大。這個事還得做下去像ott tv網際網路貸款,網際網路帶寬本身帶寬沒有那麼寬,我們通過寬帶建設,很大問題即使夠寬,大家一起上一共享帶寬一分也沒有那麼多,這時候怎麼辦有非常好編碼壓縮工具,使得壓縮非常高,大家還在做。

現在我們十多年前開始做avs+已經變成廣電行業标準,是以現在央視已經經過很多人測試,今年年底明年年初陸續有很多,今年可能大概三個頻道,明年有十幾個avs高清頻道開播,這是廣電行業用,這之後推動國際标準hod标準,2010年開始推動,從去年我們啟動一個視訊部分,視訊部分實際上是今年已經完成了。完成的東西是今年6月4日第一版本印刷出來。所包含檔次我們所說基本檔次有增強檔次,監控檔次,增強檔子面向電影和廣播做,增強檔次增加版增強版,就是我們所說的avs 這是光電行标對應在cctv被測試過東西,還有特點面向視訊監控做了一個檔次,做很巧妙,性能非常好,不光支援你監控裡面編碼壓縮。把視訊把背景建起來,利用背景可以使得編碼效果提高很高,有些監控攝象頭回旋轉鏡頭拉伸,可以用同樣背景去覆寫。

另外可能有些比如說天氣、光照、霧、雨各種各樣的場景可能會模型産生一些變化,加上這些天氣模型。這些模型實際上不僅可以提高電闆,更重要最對象,對象有人、車、自行車行為往哪裡開,突然加速突然減速等等行為進行完整分析,這東西實際上模型效率很高,在avs做了,投稿時候有人就說能不能放大h.265試試,我們就放在效果非常好。比現有的可以節省44.7%,實際上這個模型是比較好使的。今天我們話題不是很直接,實際上我們現在正在啟動新的視訊部分,這部分我們面向網際網路電視做的,網際網路電視除了剛才帶寬問題以外,網際網路可以參考資訊非常多,這就是大資料給我們帶來好處。

可以利用大資料,利用網際網路資料編碼效率可以更高,這是正在做的東西。可以這樣說,我們後那部分字完對ott tv編碼工具應該說就會有很好的支援,現在我們定位就是說,對于ott tv編碼标準效率高一倍,支援視訊檢索,可以支援畫面尺寸大小變化。正在組織領域做國際雜志一個專輯。我們現在從整個國家經濟發展來說資訊消費,寬帶中國資訊消費給我們ott tv帶來一定機遇,大資料和編碼工具還有很多技術沒有做得很好,具有很多技術挑戰,對我們來講迎接挑戰,做技術人很高興,同時做産業人也很有機會,希望大家能夠抓住機遇順利發展,謝謝大家。

<b>原文釋出時間為:2013-08-26</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀