天天看點

音頻品質評價體系那些事

前言

近年來,線上音視訊的産品形态和應用場景越來越豐富,疫情更加速了許多行業線下轉線上的布局,音視訊技術也越來越受到各大廠的重視,Zoom的股價飛升,騰訊、位元組、阿裡等等巨頭的大力投入,令這個賽道的競争越發激烈。在這個激烈的競争環境下,所有的賽道玩家都很清楚,好的音視訊體驗,将是決定産品成功與否的最重要因素之一。在本篇内容中我們将主要圍繞音頻品質評估的一些重要标準,來講講不同評價體系裡的标準、内容、互相關聯和一些個人見解。

在介紹各種評價标準和算法之前,有一個組織必須要重點介紹,ITU (International Telecommunication Union) 國際電信聯盟簡稱國際電聯,ITU是主管資訊通信技術事務的聯合國機構,旗下有一個專門制定電信标準的分支機構ITU-T(ITU Telecommunication Standardization Sector of ITU)。

音頻品質評價體系那些事

01

主觀音頻品質評價标準:

MOS in ITU-T P.800 

說起音頻品質的評價,它并不是現在才出現的。早在電話發明之後,如何系統地評價語音品質就成了一個難題。ITU-T 作為通信領域制定标準的權威機構,當然不會坐視不管,于是在1996年8月30日,正式推出了P.800: Methods for subjective determination of transmission quality标準。在這個标準裡面有一個重要的名額被提出來,那就是今天被沿用最為廣泛的主觀評價标準 MOS(Mean Opinion Score)。

音頻品質評價體系那些事

有些人可能覺得這個标準好簡單,不就是1-5分的打分麼?可是事實上并不是,主觀的品質評價要想成為可重複使用的評價标準是很難的。不同環境、心情、知識儲備、職業、聽力範圍及靈敏度等等背景的人都可能會對同一個聲音給予不同的評分,甚至一個人在不同時間和背景下對于同一段語音品質,也會給予不同的主觀評分。是以光有一個MOS評分是遠遠不夠的,在标準裡面還推薦了多種可行的測試方案,比如在Listening-opinion tests測試方案中給出了"Absolute Category Rating" (ACR) 。裡面規定用短分組的不相關的句子測試,并且這些句子是通過一系列标準測試驗證過的,然後在相同的測試方案下,相同的實體條件和傳輸系統下,來對比測試的結果。這樣測試方案就具備較高程度的結果一緻性。而這裡說的實體條件包含非常的細緻,例如測試線材、噪聲(底噪;環境噪聲)、噪聲測量的位置。其中環境噪聲還分為(房間噪聲、車内噪聲等)。除此以外對噪聲測量的位置、建立連接配接、監聽、儀器裝置設計、對話任務等等都有一些建議。

說白了,這個标準事無巨細地列舉了所有可能對主觀評分一緻性産生影響的因素,用很多不相關意義的短句組,在實驗室可以控制的實體條件下,讓很多被測試人員在相同環境下做對比測試,再做平均。這樣的測試才能達到一緻性标準,同時也具備了可行性。

但同時我們也發現,組織這樣的一場測試耗時耗力,實在是不适合快速的品質驗證。盡管如此,它對于今天依然非常有意義,比如現在很多産品在通話結束後給使用者的品質回報打分,1星到5星,雖然不能控制在相同的實體條件下,但是大量的使用者主觀評分機率分布依然可以相對客觀地評價産品的主觀品質。

最後,主觀音頻品質評價标準除了給出MOS 這個有意義的評分标準,還給出了兩個标準MOSle 和 MOSlp,也非常有參考意義。

音頻品質評價體系那些事

-MOSle-

音頻品質評價體系那些事

-MOSlp-

02

客觀有參考音頻品質評價标準:

PESQ in P.862 & POLQA in P.863

主觀評價體系建立後,由于其實作起來的高成本和低效率,并不适合企業快速驗證系統的音頻品質,是以客觀标準的需求日益擴大。這個時候需要一個可以近似人類聽覺體驗的客觀評價體系,并且能做到盡量穩定。

做一個成熟穩定高度逼近人類聽覺體驗的評價标準非常難,是以客觀标準的制定最初是建立在一套有參考信号的評價體系之上的。也就是評價的時候,同時需要待測信号和參考信号(不經過待測系統隻經過測試裝置環境回環的信号)。相較于無參考評價方案,有參考的客觀評價方案更容易做得貼近主觀評價體系。

但即使是有參考估計,想要全面模拟主觀評價也還是比較難的,随着算法不斷發展和完善,評價從隻考慮部分名額到考慮更多名額發展。比如在介紹PESQ之前,也有一些客觀評價标準被推出,評價有一些局限性,如:perceptual speech quality measure (PSQM) 和 perceptual analysis measurement system (PAMS)。前者隻能用于音頻編碼器的評估,而後者隻能評估有限範圍内的失真。

PESQ

ITU-T 在2001年02月釋出的P.862裡推出了一個新的方法:Perceptual evaluation of speech quality (PESQ),也是在一段時間内,業界廣泛使用的方案。标準裡這麼說道:這是多年積累的結果,是一款不僅适用于音頻編碼器,同時也适合end-to-end 測試音頻品質的評估方法。我們從下面幾個角度談一談PESQ吧。

1、PESQ的測試方案

PESQ 如标準的描述,可以進行端到端的音頻品質測試,把參考信号(Reference speech) line in 傳入發送端(如下圖是一個電話),經過電話網絡到接收端,再Line out傳出和直接回環(圖裡叫做參考路徑Reference path)的參考信号傳入PESQ 算法進行,有參考評估,最後生成PESQ score。

音頻品質評價體系那些事

需要注意的是,參考信号并非是随意選取的,标準對于輸入的參考信号有較嚴格的限制,比如長度:8-30s 的長度,裡面的每個短句不能低于3.2s,活動語音的占比40%到80%,語音音量:參考ITU-T P.56 在-30dBov 同時避免溢出,等等。

2、PESQ 算法流程

标準在PESQ算裡面針對多個部分做了詳細的闡述,這裡給出一個簡單的PESQ的算法架構如下圖:

音頻品質評價體系那些事

簡單來說:Time Alignment 把輸入的活動語音段檢測出來,再進行delay 計算和語音分段,這個算法是可以相容可變delay的。然後PESQ Algorithm 在計算對齊的參考信号和待測信号,得到它們的頻域的信号進行一些補償後,轉到響度域再根據心理聲學模型,對比兩個信号的感覺差異。最後将差異mapping 到 類似MOS分值的PESQ score,取值範圍在 -0.5 到 4.5。

3、PESQ 的有限性

1)隻适用于窄帶和寬帶(2005年P.862.2 Wide-band Extension)音頻。

2) 隻用于測量one-way 語音的失真和噪聲。對于響度降低、時延、回聲等等方面和雙邊互動相關的,都無法評測。

3) 多數情況下評分比較符合主觀标準結果,但部分場景下和主觀測試結果有一些差距。評分結果的分布的聚合性一般。

标準裡面也說明了,PESQ是不能代替主觀測試的,它隻是一個具備參考意義的近似主觀體驗客觀評價标準。

POLQA

随着時間的發展,更多的适用範圍、更廣泛的标準也一一湧現,如2004年P.563 的3SQM,還有一個就是一直沿用到今天、在有參考客觀音頻品質評價領域最新也是最大範圍被應用的在P.863裡出現POLQA标準。

1、POLQA 測試方案與算法架構

POLQA的測試方案和PESQ 一樣,也用了參考信号來做對比,測試方案差不多。算法大架構也差距不大,但是用了全新的 Time Alignment算法和全新的感覺模型。這裡就不展開了,給出一個核心模型流程圖(沒有包括 Time Alignment 和 Perceptual Model):

音頻品質評價體系那些事

2、重點說一下 POLQA 和 PESQ 的差別

這裡轉載Pomy在一份報告裡面描寫關于兩個算法的一些地方的差別:

PESQ POLQA
Acoustic measurements × Not easy
Correct scoring with high background noise ×
AMR vs EVRC codec comparison ×
Representative scoring of reference signals ×
Effects of speech level in samples ×
Narrowband(300Hz – 3400Hz)
Wideband(100Hz-7000Hz) √ Use SWB
Superwideband,SWB(50Hz-14000Hz) ×
Linear Frequency distortion sensitivity ×

除了兩個算法外,他還專門組織了"Absolute Category Rating" (ACR)測試,測試了Human、 POLQA、PESQ 之間的差別,如下圖:

音頻品質評價體系那些事

總的來說,POLQA不僅支援全頻帶評測,還增加了對響度變化的評估,全新的感覺模型評價體系使得POLQA和主觀評測的結果更加接近。

03

客觀無參考音頻品質評價标準:

E-model in G.107

前面介紹了主觀音頻品質評測标準和客觀有參考音頻品質評測标準,特别是當有了客觀的有參考音頻品質評價标準,企業可以很友善地測試系統的端到端音頻品質,雖然不能完全取代主觀測試,可随着标準的更新,客觀有參考評價标準會越來越接近主觀評價且越來越穩定。但是很多企業也發現,即使有端到端的客觀有參考評價标準,依然很難解決線上音頻品質的實時監控。有沒有一種名額可以在不需要參考信号的情況下,在某種程度上反應出主觀音頻品質的變化呢?

ITU-T 在2015年6月釋出了 G.107,給出了一種計算模型專門評估端到端傳輸的音頻品質評估,其算法模型叫 E-model。 

1、E-model 的基本算法結構和架構

E-model是在一個評估音頻裝置損傷叫做”Voice Transmission Quality from Mouth to Ear”的模型基礎上衍生出來的。E-model會把通話中發送端和接收端當成嘴到耳朵的評估,把通話分成發送端和接收端,然後把能考慮到一些可以量化的、對于聲音品質有影響的因素都參考進來。如下圖:

音頻品質評價體系那些事

其中OLR:Overall Loudness Rating,SLR:Receive Loudness Rating, RLR:Receive Loudness Rating。E-model的傳輸損傷等級因子R的公式為:

音頻品質評價體系那些事

其中:R0:基礎信号比

        IS:傳輸時産生的同步損傷,由量化,連接配接等因素影響

        ID:傳輸的時延損傷

        Ie-eff:裝置損傷系數

       A:優勢系數(和其他所有的傳輸參數都沒有關系的)

每個數值的計算都比較複雜,且參數較多,這裡就不一一展開了。

2、E-model的結果R 如何導出MOS

音頻品質評價體系那些事

3、關于E-model的一些感想

G.107給我們帶來一套複雜的、完善度也相對較高的評估模型E-model,這個模型在沒有參考信号的情況下,把對于語音品質有影響的很多因子都考慮進去了。先不說能不能完全靠近主觀測試的評價體系,對于企業的線上實時音頻品質監控也具備很大的指導意義。另外也有人提供了一些改良方案,例如加入網絡jitter的系數對評價結果産生影響,當然是不是合适也需要在實踐中驗證了。