天天看點

七牛雲徐晶:低延遲互動時代看好WebRTC和SRT

版權聲明:本文為部落客原創文章,未經部落客允許不得轉載。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/82322760

在 LiveVideoStackCon 2018 前夕,七牛雲教育行業解決方案進階專家徐晶接受了 LiveVideoStack 的采訪,聊到了流媒體的技術發展與技術棧疊代。在當今的低延遲的互動時代,WebRTC、SRT 等技術得到了快速發展。

文 / 徐晶

策劃 / LiveVideoStack

LiveVideoStack:徐晶你好,能否向 LiveVideoStack 的讀者介紹下自己,及目前的主要工作和關注的技術方向?

徐晶:我在網際網路視音頻行業 9 年工作經驗,3 年傳統廣電視音頻經驗。曾任阿裡巴巴大文娛流媒體業務負責人,優酷直播品牌創始人,現為七牛雲智慧教育行業産品負責人。

我常年從事網際網路流媒體相關工作,接觸最底層的協定,從最早的流媒體協定 mms 到标準 RTMP/HLS 協定,再到目前流行的低延時音視訊 WebRTC 協定,都在這些協定上建構業務模型,驅動業務,形成業務閉環。

2010 始,建立優酷直播品牌,建構 B 端的高清業務模型,打通傳統媒體的音視訊與網際網路音視訊的技術壁壘,形成業内首個 to B 網際網路商業直播平台,建立網際網路的 HD-SDI 全高清标準,同步推出優化的 RTMP 協定。2014 年完成營收 1.2 億人民币。後續又将電商屬性和媒體屬性相結合,孵化了淘寶直播産品,在電商直播領域形成行業領先。

在阿裡巴巴 8 年後,加入七牛雲團隊,開始探索整個市場的直播 3.0 時代,即擁有互動能力的實時直播體系。在資本市場大量投向線上教育産業之際,開始推進線上教育的雲計算解決方案。深入研究谷歌的 WebRTC 協定,利用該低延時的音視訊傳送建立教育行業的技術模型,目前已完成教育音視訊通訊、教育白闆、音視訊加解密、海外傳輸優化、教育存儲和大資料分析等雲計算産品的嘗試。後續将會深耕線上教育和網際網路的行業解決方案,拓展和建立新的音視訊教育模型。

LiveVideoStack:回顧過去,你認為網際網路流媒體技術經曆了哪些階段?

徐晶:我認為網際網路的視音頻發展大緻分為 3 個階段:

1.0 時代:典型标志是标清傳送。這是網際網路音視訊的最初階段,通常沒有較好的畫質及使用者體驗,存在流媒體不穩定情況,但可以将傳統音視訊搬到網際網路上來生根發芽。

2.0 時代:典型标志是線上觀看。這個屬性定義主要是單向的使用者收看體驗,在這個階段,開始有高清畫質提供,開始注重使用者體驗和簡單互動,如打賞、點贊。

3.0 時代:即目前狀态,典型标志為實時互動。越來越多的網際網路音視訊使用者不僅需要高清觀看,還需要強互動,進而交流話題形成社群。

在每個時代,都有特定的技術支撐體系。

1.0 時代:我利用微軟的整套解決方案做技術核心建立平台,并不斷調整優化。比如在 mms 時代由于不采用數字化的音視訊采集,很容易出現聲畫不同步問題,技術上沒有很好的時間戳解決方案,我們會對 mms 協定進行必要的改進,對編碼前的時間算法進行了二次開發,讓模拟信号在采集的同時可以進行一定時延調整;利用 Windows Media Encoder 的核心,擴大 buffer 空間,形成業内第一個可調整同步的編解碼方案。

2.0 時代:蘋果的 HLS 與 Adobe 的 RTMP 開始深入網際網路的時代,高清開始發展。我當時負責技術上突破高清采集的限制,由于采集原始的音視訊信号存在資料吞吐量大的問題,我們建立了嵌入式硬體的解決方案,與美國的一家公司合作建立網際網路 Full HD 無損采集标準,建立 CCU 信号的初始編碼規範,進而形成行業内第一個全高清商業直播平台,為各大品牌客戶提供直播流媒體服務。包括奧迪、寶馬釋出會;戛納電影節;蘋果新品釋出會、蘋果 WWDC 開發者大會;世界網際網路大會、央視春晚、天貓雙十一晚會等。

2.0 時代還孵化了電商直播「淘寶直播」。突破橫豎屏限制,推出服務端優化和合流能力。其中最大的挑戰就是在流媒體中增加互動交易能力,我們建立雲端導播(即目前的雲導播能力)嵌入包裝系統,建立實時音視訊字幕系統增加業務端配套能力。與淘寶、天貓建構 PUGC 的移動直播工具,讓直播的門檻足夠降低,努力達到“天下沒有難做的生意”目标。

3.0 時代開始,低延時需求越來越成為開發者使用者的關注點。WebRTC 技術慢慢提上日程,WebRTC 原來不規範的信令标準在近期開始建立行業标準,阿裡、騰訊、七牛雲等紛紛開始拓展雲計算帶來的價值。而在互動領域,教育是最大的應用市場之一,其 2017 年體量約為 1800 億人民币,但排名前十的營收僅為 41 億人民币,空缺很大,這也意味着低延時流媒體的需求有相當大的空間。教育最難的突破點為行業性較深,有很多流媒體以外的需求痛點,如白闆能力和 IM 能力,需要很好的內建,這是難點也是挑戰。

LiveVideoStack:展望整個多媒體通訊領域,你認為哪些(開源)技術棧将會快速發展?

徐晶:在網際網路多媒體通訊領域,我認為現在的時代是互動時代,是低延時時代,是以首當其沖的技術就是 WebRTC。其實從谷歌 WebRTC 開源到現在已經有不少年頭,但是期間遇到了很多瓶頸和規範問題,比如原來的信令系統沒有定義和規範,早期的 WebRTC 處在 peer to peer 模式,沒有很好的音視訊網絡抖動保障和群組碼率保障的機制,導緻在群組多媒體通訊時往往因為一方的網絡抖動導緻整個通話的傳輸品質下降。當然,2017 年底,WebRTC 真正地開始發展起來,一方面是市場對低延時流媒體的需求迅速擴張,直播 3.0 時代的到來和強互動需求都給了 WebRTC 技術很多的想象空間。

還有一些開源協定和技術規範發展起來,如 Haivision 的 SRT 技術開始被應用在網際網路傳送,并且在一些特殊場景下沿用嵌入式硬體解決方案,這也從另一方面為低延時提供保障。VLC 從 3.0 開始對 SRT 協定進行有效支援,同時在低延時延展編碼中采用該協定作為同步,這都會在未來 1~2 年開始逐漸推向商業化。

LiveVideoStack:您參與過娛樂直播、電商直播和線上教育,這三種業務場景對技術支撐分别有哪些挑戰?

徐晶:娛樂直播中最重要的屬性是觀看,其實就是直播的 2.0 時代的産物,他的挑戰是畫質的高清和網絡傳輸的流暢,目前這部分都在被雲計算的解決方案所覆寫,形成标準元件。2018 年的挑戰是基于 4K 顯示和編碼的 OTT 延展技術和 4K+MR 的多媒體混合編解碼方案,這些是技術上的突破,目前國内部分大廠商已經在開始着手研究 4K 領域的高校傳輸問題。

電商直播中最重要的屬性在于互動和包裝,即電商直播開始在原有的音視訊基礎上需要對畫面進行增加字幕、顯示包裝等操作,同時還需要适配到各端的互動能力,是以最大的挑戰在于互動與直播流媒體之間的低延時同步問題。如一個電商直播在 20 點整的時候開始搶購,需要同步在流媒體中輸入有效的字幕,及同步所有的互動互動元件進行适配觸發某些功能的實作。我們通過給流媒體加上相對時間軸和相對互動時間打點機制來完成,這個技術行業内叫流媒體時間戳。

教育類直播是直播垂直領域的一個分支,其重點的技術突破就是足夠的低延時,能夠讓雙向的直播不會因為時延而讓雙方交流不暢。重點是 WebRTC 技術的運用與優化,難點也是 WebRTC 的優化和相關配套能力(如白闆、虛拟環境)的協同。比如如何解決 Peer to Peer 的不穩定問題,如何利用 P2S 模型建立更強大的服務端能力,比如服務端的 GPU 加速合流、錄制能力,同時通過編解碼的方式優化是否可以在服務端建立二次編解碼能力做端上低碼率适配等等。

LiveVideoStack:能否介紹下七牛雲在教育和實時通訊領域有哪些特色技術和産品,未來有哪些發展規劃?

徐晶:加入七牛雲以來,一直緻力于開拓雲計算平台的教育行業解決方案,我認為未來雲計算平台将不止于提供基礎的雲計算能力,還會圍繞不同場景提供整體的行業解決方案,教育就是其中一個。教育行業的難點在于需要很多的基礎産品進行結合,同時還會有很多的流媒體意外的痛點需要大量被內建和協同。

七牛雲智慧教育行業解決方案的優勢在于依托于七牛雲的雲計算平台,能夠快速內建行業應用,滿足業務需求。比如在音視訊方面,目前大量的實時通訊的公司都在 WebRTC 協定上加了一層自己的私有化協定做基礎保障,這樣開放性低,相容度不高,後續的維護成本過高。而七牛雲是基于标準 WebRTC 開發,全程采用基礎協定,這樣無論在 SDK 的包體大小還是在後續的相容度上看,會更有優勢,好比是做了一個 App store,後續的功能其實可以通過開放的生态來構築。當然七牛雲智慧教育解決方案還有不少優勢,比如精度可達全高清,不久将支援 4K 能力,再比如七牛的基于 GPU 的教育視訊合流能力以及描述性白闆同步能力,未來的七牛雲智慧教育行業解決方案還會拓展 AI 和大資料的分析,針對傳統教育行業的一些痛點進行深入化的單點打透。

LiveVideoStack:說說你将在 LiveVideoStackCon 2018 分享的内容吧。

徐晶:首先很榮幸可以在這樣的平台上進行交流和分享,我擅長技術驅動,進而帶動整合産品的模型發展,是以我會在這個分享會上去分享我在七牛雲建立教育行業解決方案的最初思考,以及在這個思考背後所作出的技術改進和努力,同時也會将我目前所做的産品方案以及為什麼會有這樣的産品發展路徑和選擇和大家做一些互動。

繼續閱讀