智能大屏手機剛剛普及的時候,螢幕尺寸是消費者選購手機時最關注的因素。近年來,各大廠商走火入魔一般地在相機方向發力,于是拍照功能又成了消費者主要關注的因素之一。然而,随着自媒體與vlog的興起,越來越多的使用者開始使用手機錄制、觀看音視訊内容,可以預見,手機音頻品質的重要性未來将會大大增加。
10月份,著名的相機與手機影像評測機構DXOMark官網上線了手機音頻品質評價标準與結果。盡管近年來DXOMark常被調侃為“被充值的評測機構”,但我認為這依然不影響他的總體權威性(要不為啥各大廠家都喜歡給他們“充值”,而不是給國内這一大票評測媒體?)。下面我們來看看DXOMark是如何制定音頻品質評價标準,又是如何進行品質評價的,想必其中一定有值得我們學習的地方。
總體評價方法與環境
DXOMark的手機音頻品質評價分為兩個大類:播放品質與錄音品質。對于每一個大類,又包含各種評價名額,将各個名額的評價結果權重彙總後即得到目前大類的總體評分。評價方法則包含客觀品質評價和主觀品質評價兩部分。在客觀評價中,依據頻譜圖,以及聲級計等裝置給出的結果進行評分。在主觀評價中,依據有多年經驗的聲學專家所給出的主觀感覺結果進行評分。
雖然DXOMark沒有明說,但我們大膽猜測這些聲學專家應該很多都有“金耳朵”認證
測試環境分為兩部分:消音室和聽音室。
在消音室中,聲波反射被完全杜絕,外界噪音也被完全隔離開。測試播放品質時,在消音室中用麥克風記錄手機播放結果;測試錄音品質時,還會在消音室中放置額外的揚聲器來模拟各種真實使用者使用場景。
在聽音室中,環繞被測裝置和人員放置有數個揚聲器。這些揚聲器的布局被精心設計過,進而可以幾乎完全重制真實使用者使用場景,比如繁忙的大街或安靜的書房。在聽音室中,既可以對單一裝置進行評價,也可以同時比較多台裝置的音頻品質。
根據DXOMark的介紹,他們會先用多個麥克風以特定的布局錄制真實使用者場景的環境音,然後在聽音室中将揚聲器依照相同的布局放置,進而實作對真實場景的重制。
播放品質評價
在不同的使用場景下,使用者所關注的播放品質因素有所不同。舉個例子,在玩吃雞這樣的射擊遊戲時,使用者更關注遊戲槍聲或其他音效的空間感,因為更好的空間感有助于玩家定位聲音的方向。而在手機上看電影或聽音樂時,其他品質因素則可能對使用者體驗産生更大的影響。
再比如,當使用者聽歌時,他們一般會豎屏握持手機,這又與玩遊戲時橫屏握持的使用場景有很大差別,相應的影響因素也不同。舉個例子,當使用者觀看網絡主播的視訊時,往往更關注人物說話的聲音,這又與聽歌時的關注點會有所差別。
基于此,DXOMark設計的播放品質評價名額包含以下幾個次元:音色、空間感、力度、音量和音損。同時,這些評價次元根據不同的使用場景會有不同的權重值(不過DXOMark沒有公布具體的權重值)。
音色
音色乍一聽是很玄學的東西。DXOMark對良好音色的定義則是:裝置應該能在特定場景下呈現符合使用者期望的正确頻率輸出。比如前面提過的網絡主播視訊的例子,如果裝置能夠在此時正确地呈現出使用者想要的人聲(對應于中頻部分),那麼我們就說裝置在這一場景下的音色是優秀的。
這給我們的啟示是:裝置的音效應該能夠根據目前内容進行自适應的調整。
空間感
良好的空間感可以讓音頻播放輸出更具有立體性。營造聲音的空間感主要是基于心理聲學模組化技術實作的,是以,DXOMark對聲音空間感的評價也主要是依賴主觀感覺評價來完成的。空間感這一評價次元又包含有幾個子次元,如下:
- 廣度(wideness):評價裝置将聲音感受區域擴大的能力。
2. 均衡度(balance):評價裝置上多個揚聲器之間的平衡度。
3. 距離(distance):評價感覺的聲音傳遞到使用者的距離範圍,也就是在不同的使用場景下,使用者要距離揚聲器多遠才能正常地聽到聲音輸出。
4. 可定位性(localizability):評價裝置在呈現整個聲場時,能否保持特定聲音來自特定位置的能力。
力度(dynamics)
力度是指音頻中起音的強度、低音的準确度以及給人的沖擊力。對這一名額的評價也都是基于主觀感覺完成的。同時,DXOMark還會測量音頻力度随輸出音量變化的情況。
音量
與空間感和力度的評價完全依賴于主觀感覺所不同,對音量的評價會部分依賴于對揚聲器聲壓級的客觀測量與評價,具體來說,會測量最大音量、最小音量以及音量的一緻性名額(使用者對音量的感覺變化應該與音量級别的變化保持一緻)。除了客觀評價外,音量的評價也需要主觀感覺評價的參與。
音損(artifacts)
對音損的評價同樣是由主觀和客觀評價綜合完成的,其中客觀評價主要是通過觀察頻譜圖來實作的(在頻譜圖上可以輕松地發現各類異常的音損)。音損分為兩種:
1. 頻域音損(spectral artifacts):與不必要的頻率有關。在特定振幅下,聲音可能會産生失真并且産生不必要的頻率,一般在大音量時容易發生。
2. 時域音損(temporal artifacts):暫時性的音損,常常表現為聲音的突然增大或減小。
錄音品質評價
智能手機常見的麥克風配置為三個:兩個用于後置攝像頭,一個用于前置攝像頭。同時,這些麥克風一般都是全向性的,會收錄到裝置四周所有的聲音。這些聲音中既包含嘈雜的背景聲,也包含聲源的反射,優秀的裝置必須能夠應付各類複雜、惡劣的聲學環境。
手機錄音的使用者使用場景絲毫不比播放場景簡單,比如會有
- 在嘈雜的街道上錄制包含對話的視訊,此時評判的是裝置麥克風收錄各個聲音的情況,以及對環境噪音的抑制能力
- 用前置攝像頭錄制自拍視訊,與前一場景類似,此時評判的是裝置從周圍環境中辨識出主體聲音的能力
- 在音量大、低音強勁的演唱會現場錄制視訊,此時評判的是裝置重制音量與低音、并且不發生明顯失真的能力
- 錄制古典音樂會,與前一場景不同,此時評判的則是裝置重制空間感的能力
- 錄制多人會議,此時裝置需要從多個方向上錄制好幾個聲音,評判的是裝置收錄各個聲音的情況,以及抑制環境噪聲的能力
是以,和播放品質評價類似,DXOMark設計的錄音品質評價名額包含以下幾個次元:音色、空間感、力度、音量、音損和背景音,并且這些評價次元也會根據不同的使用場景有不同的權重值。
音色
DXOMark會測量錄音音頻的低頻、中頻、高頻和它們之間的總體平衡性。
空間感
空間感的定義與播放品質評價中一樣,不過在錄音品質評價中,所關注的空間感子次元多了一個“方向性”,它評估裝置根據聲音來源與使用者場景處理聲級的能力。比如在錄制視訊時,裝置正面和背面的聲音都必須以适當的聲級錄制下來,這樣在回放時才能展現原始聲源的位置與聲級。
音量
評測裝置無論在什麼輸入聲級下都以适當音量錄制音頻的能力。
力度
同播放品質的定義。
音損
錄制品質中的音損名額主要是指“閉塞音損(occlusion artifacts)”,它是指使用者在錄音時的手機握持方式可能會影響錄制品質,而優秀的裝置會專門對此加以改進。
背景音
又稱環境音,它包含兩個子次元:
1.方向性:依據使用場景的不同,背景音可能是适宜的,也可能是應該去掉的。但是在錄音聲場方向性很強的情況下(比如錄制自拍視訊),DXOMark會評測主體的聲音是否清晰以及背景有無噪音。
2.背景音損:背景音也有自己的音損名額,使用者不希望在回放時聽到來自背景的異常聲音。
結語
說到音頻品質,大家總覺得是玄學,但是DXOMark向我們展示了如何通過制定較為科學的評價名額體系與方法,将音頻品質評價結果進行量化,這其中的很多細節都值得參考,也可以作為實踐中的指導。
即便總有人會說這是為了賺錢,但我覺得這種賺錢方式不丢人,甚至是值得大加贊賞的,如果有更多組織敢于設計、公布自家的評價名額與方法,不也正推進了行業的進步,也可以更好地對消費者進行教育嗎?
refer: https://www.dxomark.com/introducing-the-dxomark-audio-test-protocol/
掃碼關注公衆号【音視訊開發進階】,一起學習多媒體音視訊開發~~~