随着通信技術和移動網際網路的快速發展,大衆擷取知識的方式也發生了巨大變化。近幾年,在市場發展、技術進步、政策利好、資本注入等因素的共同推進下,中國線上教育市場愈發活躍。據前瞻産業研究院釋出的《中國線上教育行業市場前瞻與投資戰略規劃分析報告》統計資料顯示,截止至2018年底中國線上教育市場規模增長突破3000億元。預測2019年中國線上教育市場規模将超3600億元,達到3670億元。
在這樣的行業背景之下,線上教育平台如何在競争中脫穎而出,立于不敗之地呢?阿裡雲視訊雲産品專家王利軍認為:“技術是業務發展的基石,平台應該精耕細作,不斷汲取外部優秀的技術力量,利用穩定經濟的雲計算應對資源、網絡、性能、功耗、成本等各方面的挑戰,将精力回歸到提升使用者體驗與創新應用本身,用實實在在的好體驗來回饋使用者,才是維系平台口碑的有效途徑。”
那麼究竟該如何利用雲計算能力提升名額與使用者體驗呢?下文整理自王利軍在2019雲栖大會中的演講《視訊雲驅動線上教育創新應用》,詳細闡述了阿裡雲視訊雲面向線上教育場景的産品服務、解決方案、技術能力和場景實踐。
阿裡雲視訊雲R系産品家族
阿裡雲以IaaS層的ECS、ENS、MEC為基礎底座,網絡層的SD-RTC為傳輸通道,搭建了音視訊通信(RTC)和低延時直播(RTS)兩款PaaS層産品,用于解決線上教育授課直播中的實時性互動和低延遲等業務訴求。

音視訊通信(Real-TimeCommunication, RTC)是阿裡雲覆寫全球的實時音視訊開發平台,依托業界領先的核心網絡傳輸算法、音視訊編解碼技術、信道傳輸、弱網對抗算法、網絡排程技術建構優質的通信體驗,同時具備多重終端準入驗證、頻道會話多重鑒權、信令與媒體傳輸層加密保護等多項資料安全保障技術,讓使用者快速搭建多端實時應用,适用于互動娛樂、線上教育、視訊會議等場景。
超低延時直播(Real-Time Streaming, RTS) 是在阿裡雲視訊直播(ApsaraVideoLive)的基礎上,進行全鍊路延時監控、傳輸協定改造等底層技術優化,支援千萬級并發場景下的毫秒級延遲直播能力,保障低延時、低卡頓、高清流暢的極緻直播觀看體驗。
視訊雲技術驅動線上教育體驗更新
一、SCC編碼智能配置設定碼率,提升清晰度
線上教育業務場景中,視訊是最重要的資源,但是不管現在的網絡多好,由于終端使用者分布廣泛與網絡的複雜性,通常情況下,平台會消耗大量的帶寬來在視訊清晰度與直播流暢度中間取得平衡,這是平台的第一個關鍵痛點。阿裡雲視訊雲利用黑科技SCC編碼,面向内容紋理進行編解碼,讓碼率配置設定在人眼更敏銳的區域,這使得平台在同等帶寬下,終端觀看的清晰度更好;在主觀使用者體驗不變的情況下,平均降低15%卡頓率。綜合平均結果,SCC編碼可以幫助平台節省40%碼率。
在今年增長非常迅速的程式設計線上課堂場景中,由于螢幕共享的是代碼,經常會出現色塊、文字紋理不清,注釋不清晰,淡色字型消失等情況,使用面向内容紋理的SCC編碼後,再同等碼率之下,字母的邊緣更清楚,全部代碼清晰可見,觀看體驗大幅度提升。
二、音頻3A算法,智能降噪
網際網路應用中音頻降噪面臨的場景會更複雜,傳統的降噪是單模做法,對平穩噪聲,如空調聲、風扇聲、環境白噪聲等消除效果較好,但是對于非穩态的噪聲(如:汽車聲、街邊聲)消除效果不佳,這會導緻整體的聽感很差,授課效果大打折扣。
RTC智能降噪可以根據使用者的場景不同而進行模型疊代,除了能夠消除平穩噪聲,也能針對嘈雜聲,汽車聲,街邊聲等非穩噪聲進行增強消除,抑制能力比傳統模式多20db以上。如下圖中間标紅區域中所示,在實際辦公場景錄制中有個人打了噴嚏,也可以被較完美的消除。
RTC智能降噪經過5年音頻資料沉澱,上億次通話驗證,已經建立了持續學習的雲端特征庫,具備海量曆史資料回歸驗證與模型訓練,可以精準識别場景,進而進行穩定、多場景的噪聲消除。
三、自研ARWNT弱網傳輸算法
由于線上教育場景中終端學生側的網絡情況參差不齊、十分複雜,通常線上教育類直播會面臨弱網情況下提升視訊傳輸效果的需求。FEC備援讓貧瘠的弱網傳輸雪上加霜,而逾時與大量重傳還會加重網絡擁塞,傳輸效果難以達成預期。阿裡雲RTC自研ARWNT弱網傳輸算法,基于場景識别進行擁塞模型和鍊路模型的政策選擇,能夠實作音頻抗丢包率70%,視訊抗丢包率30%,在同等的丢包環境下,弱網傳輸效率提升65%。
四、流式RTS,支撐千萬并發下的毫秒級延時
常見的直播場景包括1對N廣播式直播和N對N互動式直播,其中1對N廣播式直播大部分采用RTMP、HLS或FLV協定,雖然具備內建友善、相容性較好、支援大規模并發等優點,但延時最低隻有3-6秒;而N對N互動直播一般采用WebRTC/RTC協定,延時可以控制在800毫秒之内,但是無法支援大規模并發直播。
阿裡雲超低延時直播服務RTS 1.0在原有視訊直播服務基礎上,進行全鍊路延時監控與優化,從采集編碼、上行推流、CDN分發、下行拉流、解碼渲染等多環節針對性優化,基于阿裡雲遍布全球的2800多個CDN節點資源、智能排程系統以及網絡擁塞、抗弱網優化、緩沖政策等進行一系列底層核心技術,打磨出真正支援穩定、流暢、千萬高并發場景的毫秒級超低延時直播解決方案。目前,全新更新的RTS 2.0将使用流式傳輸實作更低的延時,進一步提升使用者觀看體驗。
視訊雲線上教育場景最佳實踐
基于以上的産品技術,阿裡雲RTC、RTS産品針對線上教育場景積累了豐富的實踐經驗,比如成本與體驗怎樣平衡、如何選擇合适的延時方案、分辨率與碼率怎樣合理選擇、AI如何在課程中應用等。
一、成本與體驗的平衡
通常線上教育模式中,1V1體驗最佳,但是老師成本居高不下,互動大班課成本低,但是互動性和學生參與感不夠。而位于中間的小班課又受限于名師資源有限。是否有一種方法把互動大班和小班放在一起,用技術手段來解決成本和教學體驗平衡的問題呢?
RTC的做法是頻道規格更新,大方能力全面開放,利用靈活的釋出訂閱模型,任意組建虛拟頻道,非對等網絡延時控制在250-300毫秒之間,名師給幾百人上課,助教在每個教室裡進行輔導互動,解決名師資源不夠和學生互動體驗的問題。
二、選擇合适的延時方案
1V1、小班課、互動大班課、超大班課、直播網課,随着參與學生數的增加,直播互動性會逐漸下降,對延時的要求也會降低。阿裡雲視訊雲提供音視訊通信RTC、超低延時直播RTS和視訊直播三種産品,分别适用于可實時溝通、可互動、可廣播等業務場景需求,便于平台選擇最合适、最經濟、最高效的延時方案。
三、碼率與分辨率的合理選擇
線上教育場景中,使用者終端的類型包括電視、桌上型電腦、筆記本電腦、平闆電腦、手機等等,當螢幕小的終端接入的時候,平台時常會遇到分辨率過大,小裝置功耗和性能與高分辨率相沖突的問題。阿裡雲視訊雲按照實際終端的裝置和網絡屬性下發對等的視訊流,實作一次編碼,大小屏無縫對接,根據裝置和帶寬,比對最佳的視訊傳輸政策。
四、AI課程應用實踐
線上教育場景中,視訊雲AI技術已經融入前中後各個階段。在授課前期的課程編排、視訊融合環節融入AI,節省傳統專業人員工作周期,為平台降本提效;在授課中期,智能編碼、智能降噪、AI雙語字幕等技術可以解決平台和使用者痛點,提升使用者體驗;在授課後期,針對課程效果進行AI分析,為後續課堂提供資料依據,同時将直播課程智能剪輯成精彩片段,幫助學生強化記憶、高效溫習。
未來,随着5G的到來、AI技術的發展,AI教師、實時學生表情識别、智能助教等應用将更加廣泛普及,這需要更加實時、穩定流暢的網絡作為通信基礎。智能、穩定、開放、經濟的雲計算服務将始終作為承載衆多垂直應用場景變革的技術基礎,為生态帶來全新的商業成功機遇。王利軍表示:“阿裡雲将從底層算法、終端接入、智能排程、雲邊協同、網絡傳輸、視訊轉碼等多元度全面建構視訊雲PaaS服務平台,做好大視訊領域穩固的技術基石。同時,我們也會聯合線上教育領域垂直合作夥伴,探索更多垂直應用的落地。”