文 / Chris Hsu
譯 / 蔣默邱澤
原文
https://instagram-engineering.com/improving-instagrams-music-audio-quality-284e555102e9 Instagram在形成有意義的社群方面起着至關重要的作用,這是因為人們可以在Instagram上互相聯系彼此并分享對他們來說最感興趣的事情。為了幫助更好地促進這些聯系,我們始終以高品質的共享體驗為目标來開發和優化應用程式。這讓我們引以為豪:)優化Instagram體驗的其中一個方法就是提高音頻品質。
什麼是音頻品質?
音頻品質就是衡量我們提供給Instagram App的音頻與原始未經過壓縮的音頻的比對程度,一般情況下Instagram提供壓縮後的音頻,可實作音樂、視訊的流暢播放,減少緩沖造成的停頓。
但是為了實作更流暢的播放,可能會帶來壓縮失真的後果。一些壓縮失真的例子:高頻聲音的清晰度降低、低音減弱以及産生噪音。這些共同的差異同時降低了聽衆感覺的音頻品質。
提升音頻品質
Instagram的視訊系統可以通路多種級别的音頻品質,而音頻編解碼器如何選擇采樣率和碼率會影響到音頻編碼的品質。
不同的音頻編碼器具有不同級别的(有損壓縮[1]),它們在不同類型的内容上表現不一。鑒于Instagram内容的規模和範圍,嚴格評估編碼器最适合的内容,并跟蹤音頻品質相關名額非常重要。但我們不可能将大量實驗工程實際應用于監測音頻品質名額,是以我們采用最簡單的解決方案:通過現有的參與度名額來證明Instagram的聽衆關心音頻品質,改變音頻編碼器并不是一項簡單的内容。是以我們決定将保留AAC編碼器作為我們改進音頻品質的實驗編碼器。
采樣率會影響我們的音頻編碼并可以正确表示頻率上限,奈奎斯特·香農采樣定理[2]說:”若是波形的采樣速度是最高頻率成分的兩倍,那麼可以對帶狀有限連續信号進行采樣的并從樣本中完美重建。“Instagram使用行業标準44.1kHz采樣率,超過大多數人可以聽到的最大20kHz,是以我們會排除變化的采樣率變量。
碼率以千比特每秒(kbps)為機關測量音頻檔案中線性變化。換句話來講更高的碼率意味着音頻編碼中更多資料和更少壓縮。這樣低壓縮可以保留原始檔案中更多特性,同時具有更少的壓縮失真。當碼率太低時編碼器會剔除它認為不太重要的音頻細節。由于我們采用音頻編碼和采樣率不變,并且改變碼率很容易事情;是以實驗中我們變化了很多音頻碼率改進。
碼率實驗
在内部音頻品質改進之前,Instagram對視訊中音頻預設碼率為64kbps。手機的麥克風不會産生豐富的音頻信号,盡管碼率較低;但Instagram音頻壓縮對大多數内容表現還算不錯。随着Instagram創作者釋出錄音室的音頻内容時(例如錄制音樂),明顯64kbps達不到高品質音頻。
我們收到一些藝術家報告回報稱Instagram音頻聽起來“爆裂”或者品質太次的某些歌曲。我們立即觀察測試Instagram到壓縮控件中現象;例如:音樂帖故事中一些小鼓、镲片以及聲音混響的壓縮音頻聽起來比原始錄音更生硬和空洞。
很遺憾我們不能單純的為所有内容增加碼率,由于總帶寬限制。如果我們在音頻和視訊之間配置設定帶寬,這隻不過是一個零和遊戲。高品質視訊的碼率非常高對于64kbps和128kbps的音頻之間的差異對回放内容影響可以忽略不計。但是在低帶寬情況下,我們一定會用低得多碼率提供視訊這種情況下回放内容體驗64kbps時候會産生很差的音樂感覺。
雖然我們可以提高音頻碼率,但我們必須平衡音頻品質和視訊品質之間的權衡。增加所有内容的碼率是特别危險的,因為我們知道大多數内容都有簡單的音頻,并且不會從音頻方面的權衡中獲益。在我們的實驗中,我們的目标是為正确的内容做出正确的品質權衡。
特定内容和社群品質的偏好
為了找到關于Instagram聽衆對音頻信号品質偏好的凡響,我們考慮了提高音頻品質的方法。從我們之前關于視覺品質的實驗中,我們知道體驗的品質是主觀的,并且是内容類型和社群類型所特有的。
音頻品質靈敏度取決于每個聽衆對音頻細節的關注以及播放器材的品質(例如預設音響裝置或耳機)。我們擔心一些使用低端手機揚聲器的Instagram使用者可能不會關注一般的音頻品質。另一方面,音樂家們知道Instagram是一個他們可以建立音樂社群的平台,是以我們懷疑很多Instagram的聽衆會對音樂的音頻品質很敏感。
我們更希望看到音頻品質與Instagram音樂内容參與度之間的相關性最強,因為Instagram的音樂内容的音頻範圍很廣,也很豐富。為了得到這個信号,我們對産品進行了有針對性的音頻品質改進測試,我們希望音頻品質對産品産生最大的影響:音樂貼故事。
來自Relient K音樂貼 播放歌曲Cat
音樂貼故事實驗
為了避免非音樂内容的稀釋,我們利用Instagram視訊和音樂編碼标簽系統來放大A/B測試中故事類型音頻編碼。控制組中所有的音頻編碼都使用預設的64kbps碼率。我們運作兩個測試組:一組編碼使用96kbps,另一組音頻使用128kbps碼率。
在實驗結果中,我們看到通過提高音樂貼紙故事的音頻品質,使用者的參與度明顯提高。128kbps測試組提供了最佳的結果。我們通過觀看時間(即觀看視訊所花費的時間)和檢視百分比衡量視訊參與度(即觀看者看完視訊的百分比)。盡管在視覺品質和重新緩沖方面出現了倒退,但觀看時間和檢視百分比都有所提高。
我們預計到視覺品質和緩存會讓體驗退化,因為我們将帶寬使用從視訊轉移到音頻部分。但是參與度名額超出了我們的預期。這些名額表明即便是播放性能下降,Instagram觀衆也還是願意觀看完整音樂貼視訊故事,因為音頻品質更引人入勝。
未來的變化
Music Sticker Stories增加了音頻碼率隻是為Instagram群體提供個性化視訊内容體驗的開始。為了幫助我們在音頻品質、視訊品質和流暢度之間做出正确平衡,我們正在考慮建構基于感覺音頻ABR(即自适應碼率)和内容識别(即識别哪些視訊内容具有音樂元素)的未來計劃。
參考
[1] 有損壓縮
https://en.wikipedia.org/wiki/Lossy_compression[2] 奈奎斯特·香農采樣定理
https://en.wikipedia.org/wiki/Nyquist%E2%80%93Shannon_sampling_theorem————————————————
版權聲明:本文為CSDN部落客「LiveVideoStack_」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。
原文連結:
https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/94798244「視訊雲技術」你最值得關注的音視訊技術公衆号,每周推送來自阿裡雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。