天天看點

梁俊斌:音頻技術可以延展衆多應用場景

版權聲明:本文為部落客原創文章,未經部落客允許不得轉載。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/81213202

廣州TIT創意園,這裡是騰訊在廣州的研發團隊所在地。LiveVideoStack采訪了微信多媒體核心中心音視算法進階工程師梁俊斌(Denny),從華為2012實驗室到騰訊,過去十餘年梁俊斌一直專注在音頻技術。他告訴LiveVideoStack:音頻技術還有許多難點需要解決,而作為技術人也延展到應用場景,關注使用者需求。

策劃 / LiveVideoStack

LiveVideoStack:Denny你好,先簡單介紹下自己的經曆,從學生時代到進入職場,過去這段時間的一些關鍵的經曆,以及現在主要做哪些方面的研究?

梁俊斌:現在是2018年,二十年前(1998年)我考進華南理工大學,直到2007年這9年都在華南理工大學完成我的大學、碩士、博士的學業,期間跨越了好幾個不同的學科和技術領域,包括機械、電子、自動化、人工智能,這些不同的學科跨度還是蠻大的,和其他的音頻同行有不同,他們一開始在學校就專攻音視訊多媒體、編解碼算法。我在大學期間,在音視訊領域是沒有較多的積累,隻是基本了解有一點,實際接觸不多。

2007年,從華南理工大學畢業之後加入了華為公司,進入了“2012實驗室”多媒體工程能力中心,在這裡我開始踏入語音頻領域,并從此鎖定了自己的職業道路方向,到現在我還在持續做語音相關的技術。期間有過一些其他部門的同僚邀請我轉行,但我拒絕了,我堅信要做自己認為正确的事情,就必須破釜沉舟把它做深做透。音頻這個行業還有很多很不成熟的東西,可能從外界普通使用者的角度來說,我們這塊已經很成熟了,沒什麼可做的,但實際上(語音)還有很多尚未解決的難題,需要有人來做。

後來我進入了騰訊公司,加入了微信團隊。微信給我最大的觸動就是所有人都在用,這種空前的成就感是不言而喻的,所有的親戚朋友都在用,要是自己做不好的話,尤其是語音通話、語音消息每天都在用,哪天不小心出點Bug,就會影響到很多很多身邊的人,是以在享受微信工作帶來的滿足感的同時做技術每個環節都要求非常嚴謹。

LiveVideoStack:音頻這個領域,在外人看來已經沒有什麼可做的,無外乎就是語音,不像視訊各種新鮮的産品,360度視訊、VR等。那麼,音頻這塊到底還有什麼挑戰?我們外行所不知道的?

梁俊斌:語音通話是兩個或多個人在不同的地點通過手機或者說其他終端完成對話的過程,這裡涉及到通話的外界聲學環境因素,包括噪聲、回聲,混響,所有這些環境因素都會影響對方的收聽效果,而不同場景環境下問題現象差異較大,如何有效解決這是一個方面。第二方面,微信是一個超十億級使用者的APP,其中的音視訊通話功能是最基礎的,我們每天都有幾億人在使用這個功能,這裡涉及成千上萬款不同廠家不同型号的手機(當然還有PC、Mac等裝置),其不同硬體有不同的聲學特性,例如頻響、不同裝置的内置硬體處理後的噪聲、雜音等,也有作業系統非實時性的問題,另外各種APP的音頻資源沖突等各種狀況,我們都需要做相應的适配和有針對性的優化。另外,網絡傳輸可靠性是非常關鍵的部分,網絡傳輸存在丢包、抖動、時延等問題,網絡越複雜問題更多。語音包到達對方終端後解碼、播放。聲音傳入耳朵的過程是心理聲學感覺的過程,你能不能感覺的到對方傳遞的聲音資訊,資訊是否幹淨且易懂。聲音傳遞到大腦,其中的關鍵資訊是否讓你有深刻印象還是聽了就忘沒有痕迹,這些都是很值得研究的課題。而我們微信技術架構部多媒體核心中心自主研發的WAVE(微信音視訊引擎)元件正是圍繞上述問題不斷疊代、持續改進優化,建構高可用性的網際網路音視訊通話技術基石。

行外人不了解這些細節問題,是以才覺得沒什麼可做的,然而這個細節問題是必須有人做的,而且需要長期的一絲不苟的投入。做一個能通話的APP不難,但做一個超十億級使用者都認可的通話功能是不簡單的。

LiveVideoStack:微信做到這個量級,已經不僅僅是做一個簡單産品的問題了,而是要對使用者負責,因為這個可能會影響到很多人工作和生活。

梁俊斌:是的,這是一個系統工程,而不僅是一個安裝在手機上的應用軟體,需要涉及通話雙方端到端一環扣一環的品質監控和故障應對體系。我們每天都會積極搜集使用者的回報資訊,深入具體case去分析通話問題的原因,盡我們所能幫助使用者解決問題,此外我們擁有功能強大的背景運維系統,該系統能實時對大盤通話品質做端到端的分析,對異常情況會及時報警,保障通話功能的正常使用。雖然微信通話是免費的,但我們身上的責任是巨大的,我們微信技術架構部多媒體核心中心每個同僚每天都在為提升改進使用者音視訊通話體驗而不斷努力。

LiveVideoStack:在網際網路上丢包、抖動是不可控的,需要來應對。另外,如何更清晰和深刻的傳達資訊,可能涉及到心理學,耳朵的結構特性,這些能簡單講一講嗎?

梁俊斌:是的,網際網路是相對不可靠的,在WAVE引擎裡面提供了适配不同網絡傳輸特性的抗丢包、抗抖動算法和機制,讓通話過程語音更順暢。心理聲學是研究實體聲學與人類聽覺感覺之間關系的一門邊緣學科,心理聲學其中一個基本特性就是掩蔽特性,其又分為時域效應和頻域效應,這裡我們側重在頻域上的掩蔽效應,正常情況下相鄰頻帶能量強的會屏蔽掉能量弱的頻帶,在通話應用中,例如降噪算法,我們會通過降低噪聲頻點能量至掩蔽值以下來降低噪聲對人耳感覺的幹擾,同時減少對正常語音的損傷。除此以外,心理聲學還應用到很多技術點上,這裡就不一一細說了。

LiveVideoStack:一般我用微信開電話會議會用耳機,用耳機相當于就沒有回聲了,基本上就可以把回聲消除掉了?

梁俊斌:部分手機在耳機模式下由于聲屏蔽設計是以基本沒有回聲,但也有些手機在耳機模式下還是有可能産生回聲的,可能是電耦合的電學回聲,因為這裡耳機産生的回聲的線性度比較高,相對聲學回聲的非線性度高而言是比較容易通過AEC抵消抑制的,是以正常情況下你通過耳機接聽基本沒有回聲問題。

LiveVideoStack:其實我們要做得事情是非常多的,裝置不斷更新。網絡情況可能網絡會越來越好一點,5G移動網絡穩定性會高一點。

梁俊斌:從5G的設計目标是高帶寬低延遲時間,但目前還沒真正商用,對此我還是有點保留的,因為頻率越高傳輸的距離越有限,網絡覆寫應該更小,最終的網絡品質還要跟基站建設密度相關,要是做得不好的話,對我們音視訊通話是一個挑戰。由于純語音通話本身所占帶寬有限,5G的影響相對來說還不是很大,對于視訊通話體驗應該是有提升的,當然帶寬越大、時延越低,我們可以做得技術可以更多。另外通話雙方使用的如果是不同網絡或者不同營運商網絡,如何适配和確定資料的連接配接的可靠性,正确性、低延遲時間,這些是比較重要的。

LiveVideoStack:您從華為開始進入音頻領域,我相信這個過程中也有其他的機會和誘惑,為什麼還會專注在音頻這個領域?相對來說,多媒體技術就已經很窄了,音頻會更小衆,更孤獨。

梁俊斌:剛才提到“孤獨”這個詞很準确,為什麼呢?搞技術的人就必須習慣孤獨,享受埋頭鑽研的“孤獨”帶來的愉悅,技術人經常面對挫折而無助的局面,每一次失敗的嘗試讓我們感受到了冰冷的絕望,但内心的光明指引着我們砥砺前行。

為什麼選擇音頻?剛開始接觸音頻的時候,我覺得音頻技術可操作性很強。相對于以前在學校裡面做的很多底層晶片相關的項目,DSP、ARM、MCU、FPGA等,需要借助别人的專用平台,在别人提供的最小系統闆上或自己設計的PCB上開發,硬體制(電路)闆周期長。如果工廠制闆工藝環節出現什麼問題,例如PCB層間有金屬絲殘留導緻短路或不穩定狀況,返工還要考慮外面制闆工廠的工期以及晶片供貨周期,有時候晶片要從國外申購就要等好幾周的時間。而做音頻則友善多了,很簡單,隻要你有一台PC或者手機,你就能錄音,你就能做處理,你就能馬上聽到自己做的東西的效果,整個過程完全可以自己掌控。而且在華為、騰訊公司能夠提供相當不錯的大平台和優越環境,讓我可以沉下心來搞音頻,是以我就一直堅持下來了。

LiveVideoStack:我也觀察到一個現象,搞多媒體這些技術人,大部分還比較低調的,專注在自己手頭的事情,這個可能也跟這個行業對人的修煉有關系吧。

梁俊斌:(搞多媒體開發)就是要不斷的積累,積澱越深厚才能看得更高更遠。那時候我在華為做了幾年的管理之後反思,因為在大公司裡面做管理,大部分時間都是被支配的,沒有太多的時間可以專心做自己想做的事情。後來自己就做了決定,還是全身心投入到技術研發,做自己想做的事情,這個是最理想的狀态。

LiveVideoStack:音頻技術的發展方向在哪裡?比如和AI技術的結合。

梁俊斌:我在學校的時候就開始接觸AI的理論和算法,例如神經網絡、無監督學習和有監督學習等,那時候的機器比現在差太遠了,更沒有适合并行運算的GPU,跑不了很複雜的東西,耗時很長,而且沒有現在那麼開放的資料庫可供訓練,是以當時的AI理論技術沒能得到長足發展,也沒有成功的實際應用。回到現在,過了那麼多年後,以前冷門的技術現在變成熱門了。現在AI和語音結合得比較緊密,語音識别、聲紋識别、語音合成、AI降噪等等,但處理及存儲的開銷、時延問題,以及AI算法在實際運作中如何做到可觀可控等問題還有待進一步解決。

你提到音頻這一塊是不是越來越小衆了?當下看到的感覺是越來越小,但我們要看未來(的應用)。目前我們隻是做了單聲道、雙聲道的通話應用,未來必然是沉浸式的虛拟現實音視訊體驗,随着傳感器工藝更新,裝置體積進一步微型化,網絡管道的海量帶寬支援,未來我們将可以非常自由的體驗與現實世界無異的虛拟現實世界,這裡運用到的3D立體音頻動态模組化,實際環境聲場與虛拟聲場的融合互動技術。另外,随着便攜傳感器的普及,AI對個人和群體的資料分析,AI會比我們自己更了解自己,例如AI根據外界環境狀況、個人喜好、目前身體的各項檢測名額判别你當下的情緒和心理狀況,可以為你提供更适合目前個人心情、場景環境的音樂,讓你身心更愉悅或者讓你的情緒得到更有效的宣洩。現在也有一些主動降噪的音效裝置,放在床邊,能夠主動抑制你的打鼾的聲音,讓你和家人能夠睡得更好,這些都是音頻技術可以看到的未來。

不要局限在自己所做的事情,技術可以在不同的應用場景上得以延展,不同應用場景反過來決定了需要什麼樣的技術,什麼樣的算法。是以我并不覺得我們沒什麼事情可做了,隻有我們沒有把場景和使用者需求了解到位,這反而是我們擔心的。倘若我們對使用者需求都不了解,對使用場景不了解,那我們确實沒什麼可做的。如果我們搞清楚了使用者的應用場景,我們才能開發出相應的技術,并告知使用者這個技術特性是你所需要的。是以要吃透分析使用者場景和需求,肯定會有很多事情需要我們做的。

LiveVideoStack:我的體會是這樣,我在用英語流利說學英文,非常大的一個難點,就是我在地鐵和公共汽車上,噪聲很大,這個時候我說同樣的話,評分就會比安靜的環境低很多,他沒辦法根據環境去适應。如果通過陣列麥克風這樣的硬體可以做到降噪,但是普通的手機是沒辦法實作的。

梁俊斌:一般人隻有兩個耳朵,倘若你放一個單聲道的音源的話,你可以了解人隻要用一個耳朵,因為他兩個耳朵聽到的東西是完全一樣的。人在聽單聲道的信号的時候,單個耳朵就能抽取出自己感興趣的内容,而忽略幹擾信号的部分,這就是雞尾酒會效應,即在一個很繁雜的環境裡人都能快速捕獲自己想聽的内容。相比之下,我們目前還需要借助多個麥克風組成陣列,通過陣列算法來增強某個方向的信号衰弱其它方向的信号,如果需要角度分辨度更高,或者立體空間某個角落的聲音信号則需要更加多的麥克風和更複雜的陣列布局。是以這個領域的研究就很有趣了,單個人耳完勝我們目前商用的麥克風陣列。很多大牛都在研究這個,還沒有完全攻克,如果這個問題解決了,那普通手機隻需要一個麥克風就可以實作人耳相近的效果了。

繼續閱讀