天天看點

鳳鳴AI引擎釋出,實時音頻看起來真的無處不在了

ChatGPT火了之後,Sam Altman的話開始被挖出來,反複咀嚼,奉為圭臬。

他曾有一個很簡單的定義一種産品或技術革新是否具備确定性的方法:一小撮最先接觸到它的人每天會在這東西上花很長小時,長期沉浸其中,那這東西大概能成;反之,如果一個新事物仍然在哪怕一小撮人都無法上瘾的階段,那一個新的浪潮就還不是時候。

這位OpenAI創始人重新誇贊了一番iPhone,又踩了一腳VR,然後将ChatGPT推上那個“iPhone時刻”。但這樣看起來基于常識又過于理想化的判斷思路并不是沒有反例,比如曾短暫風靡的Clubhouse。

或許有一種更長尾角度的判斷思路。比如當最堅固的諾基亞使用者也開始打聽喬布斯,那“iPhone時刻”才真的來了;或者當穿着白袍,戴着白巾的保守中東網民開始舉着手機社交的時候,世界才确定真的進一步跨越到了一個實時互動的巨大浪潮裡。

2016年成立的 Yalla Group是目前語聊房市場中體量最大的公司,它在2020年成為阿聯酋第一家在紐交所上市的科技公司。上市三年後,這已經是一個月活使用者接近3200萬人,付費使用者超過1200萬人的巨型流量體。

在Yalla的聊天房裡,經常可以看到超過1000人同時在場的盛況。在這個上線2000人的音頻空間裡,很多聲音是從沙特阿拉伯、卡達甚至阿聯酋傳過來的。

這樣的事正在發生。

實時互動浪潮

實時互動的浪潮在國内洶湧,無數場線上演唱會的出現佐證着這場實時互動的技術變革。

近年鮮有在公衆視線中露面的羅大佑在去年5月完成了自己的首場線上演唱會,他唱了21首歌,4200萬人通過微信視訊号看了這場演出。而在同一天,孫燕姿在抖音上做了自己的第一場線上“唱聊會”,觀看次數(同一賬号可重複計入)達到了2.4個億。

外界将全球範圍内音視訊産品的興起歸因于疫情的推動,将國内線上演唱會的風潮描述為一場場平台之争,但從技術底層看來,實時音視訊傳輸網絡(Real-time Network, RTN)在延時降低、弱網對抗等方面的能力突破,乃至整體上以視聽為資訊流通方式的實時互動的技術成熟,才是談論這一切的基礎。

2011年WebRTC (Web Real-Time Communications)開源,然後一個完整的十年周期之後,W3C和IETF兩大标準制定組織在2021年宣布WebRTC成為官方标準,此後使用者無需下載下傳額外元件或單獨的應用程式,便可以支援在網絡上的實時音視訊通信。

“這意味着實時音視訊将被帶入Web的任何地方,為WebRTC第一代技術的标準化程序劃上了完美句号。”聲網CEO趙斌在2021年如此總結,他也将WebRTC成為官方标準的時刻看作一個起點,“下一代WebRTC技術、行業、标準進化等方面的探讨也将由此正式提上議事日程”。

RTE從技術到使用者心智上已經度過了從0到1的建立過程,未來的進化方向将會由終端的場景來給出方向。從元宇宙這樣複雜綜合的場景到從線上演唱會這樣的垂直場景,都是近年湧現出來的。在這中間,線上K歌可能是實時互動中最極端的場景之一。

它的核心玩法與除了聽力的其他感官全無關系,這完全指望實時互動中音頻能力的進展。艾瑞咨詢的一份研報表示,時延400ms之内就可以被視為強互動體驗的必要條件,當實延達到200ms内,實時互動體驗開始逼近現實。對于多人K歌這樣的嚴苛場景來說,200ms的延遲已經意味着合唱時無法被忽視的錯位感。實時合唱理想的實延門檻值需要低到50ms左右的水準。

“星戰之父”喬治·盧卡斯曾說:“電影所呈現的效果的一半靠音效組成”。電影是人類最早對于沉浸感的夢幻發明,現在一場更劇烈的、虛拟與現實的互相入侵已經呼之欲出的時候,實時互動中的音頻能力首先被考驗。這個過程中,實時音頻作為一種基礎能力正在進一步原子化。

鳳鳴AI引擎在上升,音頻能力在下沉

傳統的 RTC 概念,從資訊傳遞的角度出發,音頻功能僅提供簡單的語音溝通,滿足單一的場景和通話标準,對于音質并無太高的需求,也就是所謂的“能夠溝通”。 伴随着實時互動創新場景的湧現,使用者對于音頻體驗的需求也産生了從量變到質變的進化。

音頻娛樂在當下已經不是一種獨特的“需求”,而是所有泛娛樂場景中的标準配置,這為RTE技術、産品及解決方案的提供者提出了更高的要求。

比如線上 K 歌、線上會議等場景,使用者的需求早已從能夠溝通到希望“脫離現實”,屏蔽外界幹擾,實作純淨溝通;對于元宇宙、虛拟活動、遊戲競技等場景,使用者則是希望從簡單溝通實作“極緻拟真”的沉浸式體驗。

适配當下的實時音頻技術,既要聽感上無限接近真實世界,又要在體驗上脫離現實。這二者拟合在一起,就是聲網的鳳鳴AI引擎。

圖源:聲網

3 月 23 日,實時互動雲服務商聲網釋出了囊括AI降噪、AI回聲消除、空間音頻、最佳音效在内的新一代音頻技術智能引擎“鳳鳴AI引擎”。開發者與企業可以如搭積木般靈活調用對應元件,并廣泛應用在語聊社交、線上 K 歌、線上會議、遊戲競技、虛拟活動等諸多場景

從Yalla到Oasis,背後都是聲網實時音視訊技術在提供底層能力。這些最早在語聊房場景積累起來的音頻實踐開始沉澱成不同場景下的音效配置方案,這些方案在産品化之後,成為鳳鳴AI引擎最佳音效的語音能力。

如果把音質、延遲問題當作實時音頻在還原現實時遇到的最初難題,那麼模拟出聲音的空間感已經開始成為新的增量。空間音頻能力也是聲網鳳鳴AI引擎矚目的語音能力之一。

鳳鳴·空間音頻技術可以模拟頭部球面區域立體聲場,使使用者在音頻聽感上具有空間感。當使用者操作虛拟人物在虛拟場景裡移動,可以實作根據虛拟人物的面部朝向、音源朝向、遠近距離與上下高度,呈現不同聲音效果,完美模拟現實聽覺感受。

鳳鳴AI引擎的空間音頻能力可以完成對大量場景的重建。

圖源:聲網

在疫情中,大量線上展會、線上博物館的新場景出現,這些場景中已經可以建構出優秀的視覺空間效果;另一條線上,由Clubhouse帶起的互動播客将聲音的空間感推向外界。這樣的空間音頻效果如果疊加上進目前已有的線上場景,将進一步颠覆後者的體驗。

比如當羅大佑再次出現線上上演唱會時,聽衆可以聽出羅大佑身後樂隊中吉他手和貝斯手的位置差別;或者在一場博物館的線上遊覽中,參觀者可以随着自己的走動聽到“身邊”其他人對于展品的議論。

同時,空間音頻是元宇宙和遊戲這類具備 3D 場景玩法的最佳搭檔,如狼人殺、虛拟演唱會、虛拟活動等場景,可以有效的增強使用者線上上的互動、聽覺體驗,重構使用者在虛拟世界的沉浸感與臨場感。

并且由于聲網3D空間音頻采用純軟體算法方案,對于調用的開發者來說無需考慮硬體裝置因素。通過任意耳機在手機和電腦端即可體驗沉浸感受,且支援 iOS、Android、Mac、Windows、Unity、Unreal等多平台。開發者不必擔心空間音頻功能對于使用者裝置的影響。據資料測算,開啟空間音頻功能後,相應裝置 CPU 消耗增幅平均值

,記憶體消耗增幅平均值

沉浸感交給AI

極緻的音效和空間音頻能力能夠讓鳳鳴AI引擎盡可能的在實時互動場景中還原出聲音的真實。另一方面,AI能力讓這種真實成為體驗上脫離現實的沉浸感。

鍵盤敲擊聲、房屋的裝修動靜或者室外的汽車噪音,這些真實的聲音會影響沉浸感的形成。聲網鳳鳴AI引擎內建了利用算法對穩态和非穩态噪音進行屏蔽的AI降噪能力,可以在保證人聲無損傷的前提下,強力抑制 100+ 類型突發噪聲,在低信噪比或人聲密集場景下實作純淨通話體驗。聲網表示,鳳鳴AI引擎的降噪能力幾乎可以覆寫現實中常見的所有噪音種類。

圖源:聲網

對噪音的改善本質上是為了保證明時音頻交流中純淨的通話體驗。鳳鳴AI引擎靈活的降噪能力在保證強降噪的同時可以兼顧高保真。這意味着它可以穿透商場這種人聲極度密集的場景。并且當對話者暫時遠離麥克風導緻聲音模糊時,聲網的 AI 降噪算法也可以做到使對端能清晰的聽到該使用者的聲音。

除此之外,鳳鳴AI引擎的另一項能力在于強力的回聲消除能力。線上上會議、線上K歌、多人連麥等場景中,回聲的存在是影響通話品質以及互動體驗最大的因素之一。聲網的AI回聲消除技術可以利用算法對環境中産生的回聲混響進行有效抑制,并且能夠智能适應各類環境以及對不同音源做精準分離,從混合的近端信号中消除不必要的遠端信号,保留近端人聲發送到遠端,進而實作全面消除回聲,實作高保真音頻體驗。

圖源:聲網

尾聲

聲網在2021年釋出了RTE萬象圖譜,這張巨大的實時互動生态圖景中已經出現了圍繞教育、泛娛樂、IoT、企業協作、金融、醫療等20多個行業賽道的200多個場景。作為實時互動底層技術服務商,并且正在推動這場浪潮的聲網,帶來的明确回報是,音頻體驗的提升能夠增強平台使用者的核心體驗。

對于相關的開發者和行業使用者來說這直接意味着,對噪音的抑制能夠提升語聊房使用者活躍度和留存,以及遊戲開黑場景的通話時長;回聲消除能顯著提升使用者的線上 K 歌體驗;而立體、具備空間感的音頻體驗則能提升元宇宙社交、遊戲競技、線上會議、虛拟活動等場景中使用者的臨場感和沉浸感。

在業務邊界不斷擴充,對實時音視訊體驗的訴求越來越垂直化的情況下,以往功能單一的玩法已很難變現,融合更多玩法是趨勢,而鳳鳴AI引擎則是一個內建式的實時音頻解決方案。

相比聲網此前自研Solo和Nova引擎在音頻 Codec 次元的創新,鳳鳴引擎的改進主要集中在3A、空間音頻和AI方法的引入上,這是聲網在RTC音頻領域針對核心技術的長期投入結果。聲網算法專家許冉指出,未來聲網将基于鳳鳴AI引擎形成新一代RTC 音頻解決方案,比如探索更個性化的語音方案、語音超分、co-experiencing場景等。

而鳳鳴AI引擎本身也會繼續進化。聲網音頻娛樂産品負責人楊帆介紹,鳳鳴AI引擎目前正在開發變聲這一功能,使用者将可以體驗20+變聲風格,多樣角色扮演花式玩轉語聊場景。

随着鳳鳴AI引擎的釋出,聲網作為底層技術服務商的角色進一步加強。實時互動領域的進一步繁榮,也将從RTE相關技術的整合和子產品化開始。實時互動開始真的像人類需要空氣和水一樣,成為大衆日常所需,無處不在了。

繼續閱讀