原創 淘系音視訊技術 淘系技術 2020-12-25

“聽這聲音仿佛回到了小時候,不僅腦海裡有畫面,甚至還有溫度味道。”
“隔着螢幕已經感受到火光和撲面而來的溫暖了”
“沒想到在淘寶直播間也能聽到asmr”
有這樣一個特别的直播間,一位75歲的老奶奶,在淘寶直播間給燒柴火給網友聽。
來自奶奶的科普:不同的柴火能燒出不同的聲音
還真别說,直播間裡,我們可以清晰地聽到:稻田稭稈的滋滋聲、玉米稭稈的沙沙聲......
每一塊柴火發出不同的聲音,讓人感到溫暖又解壓!閉上眼,仿佛感覺自己也坐在奶奶身邊,陪着一起烤火~
伴随電商直播的火熱發展,直播場景和直播形式也越來越多樣化,除了燒柴的奶奶,還有很多音樂直播間,不少主播也會将直播場地選在開闊喧嚷的戶外、喧鬧的商場甚至是市場......複雜的場景化無疑對音頻處理技術提出了更大的挑戰!
阿裡巴巴集團CTO魯肅也曾分享了他購買古琴的經曆,買古琴不能通過正常的圖文描述來分辨古琴的好壞,賣家将程立引導到直播間,通過主播講解,在直播間聽聲音來分辨古琴好壞。買到琴後發現琴的聲音跟直播間裡聽到的完全一樣,魯肅對淘寶直播間樂器的音質大加贊賞,這種所見即所得的感覺是直播最大的優勢。
音樂直播間高保真體驗:
高清音質的體驗一直是我們追求的重點。口播是主播賣貨最直接有效的交流方式,但主播直播間聲音環境複雜、音頻裝置多種多樣、應用場景差異性大,進而導緻一些場景的音質體驗受到挑戰。淘寶直播多樣化的直播場景和聲學裝置類型,導緻我們很難用一個通用算法解決所有聲音問題,為此我們針對一些問題進行有針對性的優化工作。
曆史上淘寶直播的場景以語音直播為主,後來随着商品場景的豐富,樂器、音樂直播逐漸增多。通過調研我們知道樂器商家對音質的要求非常嚴格,稍有失真就會直接影響銷量。為了解決該問題,我們全鍊路分析影響音樂信号的環節,找到優化點,對每個産生音質損傷的點進行優化。
上圖列出了一些影響直播音質的環節,樂器直播一般都會配置聲霸卡裝置,是以硬體端一般輸入音質都比較好。音頻采集模式對音質影響較大,原始采集基本無損,但是如果加了系統自帶的算法處理,音質會大打折扣,并且不合适的采集模式會導緻外置聲霸卡不可用。降噪、編解碼和播放器的處理都是算法層面的影響,算法處理不當,會導緻信号的頻率失真、頻寬等問題。最終,經過優化之後,樂器直播場景音質得到了極大提升,通過AB test驗證,優化之後樂器場景粉絲平均停留時長增加明顯。
線上優化前樂器直播效果:
線上優化後樂器直播效果:
“讓畫面更清晰,讓聲音更動聽,打造最佳的視聽體驗”,一直以來都是淘寶直播體驗優化的重點。在過去一年中,我們圍繞音質和畫質,建設了端側窄帶高清技術,使用圖像增強的技術來提升低端裝置的畫質,并采用ROI感覺編碼來提高重點區域的品質。在音頻方面,我們自研了基于資料驅動的智能降噪,在主觀和客觀名額上都對齊甚至超過了競品,在消除噪聲的同時對人聲進行最大限度的保留;我們還推出高音質直播間,顯著提升樂器類直播觀看時長;通過采用自研軟體3A,解決各種手機音質不一緻的問題。
我們會持續優化畫質和音質。通過主觀品質優化來進一步提升直播間畫質,通過智能PLC技術來恢複網絡丢包,通過場景檢測來識别目前的直播環境,并據此來選擇最佳的語音降噪模式和降噪強度;我們還會設計聲音美化功能,讓男主播的聲音更渾厚,女主播聲音更清澈;在聲音互動方面,我們還會支援直播連麥的變聲功能,有效保護特定人群隐私。我們還會跟達摩院同學一起,在直播間引入智能語音TTS,ASR能力,提供語音播報,語音消息,實時字幕能力,更好的服務于主播和使用者。
>>>點選檢視原文