天天看點

3D mesh 的品質評估(Perceptual Metrics Quality)

一、關于3Dmesh的簡介

現在随着技術的快速發展,3D的實作和發展也變得越來越迅速。目前大家了解的比較多的且有直接感受的3D就是3D電影了,但那個并非是真正意義上的3D,那隻是利用人眼視差形成的變換2D圖像而已。另外一個讓大家比較期待的就是虛拟現實的技術,其實虛拟現實從嚴格意義上來說,不能說是3D技術,而應該是資訊融合技術。在本文中,我所提到的3D是有真實三維空間的物體,也就是“真三維“,具體可以看我的另一篇部落格《對3D顯示技術的初步分類》。在本文中我可能會更多地介紹學術意義上的東西,但不代表不實用,學術隻是一種表達方式,我也會盡量說得簡單些,不然就違背部落格的含義了。

好了下面開始進入正文吧:

第一個問題:什麼是3D品質評估

一個3D物體從采集到顯示經曆了許多過程:例如預處理,壓縮,簡化,傳輸,渲染,顯示等等,整個過程是如何進行的以後我會專門讨論,這裡就不深究了。在3D的整個處理流程中,我們有一點要清楚就是如何更好地展現給人的眼睛。這裡更好講的是一種平衡,或者是英文的tradeoff,舉個生活中的例子:如何用較少的錢買到較好的手機,3D品質評估就是如何使用較少的代價(payload,到時會結合不同場景具體說明)去得到不錯的3D模型。那麼,怎麼衡量你是用較少的錢買到了較好的手機呢?當然人會去用各種資料比較得到,對,說道重點了:可是3D 模型不會思考呀?是以3D品質評估就是來給3D模型思考總結來了,給代價和品質建立一個量度(metric),當然這個品質(quality)好不好最終還是要人眼說了算(perceptual),是以這個量度需要結合人眼主觀去建立,這就涉及到品質評估裡比較重要的與一個部分:主觀測試實驗。是以在論文中3D品質評估也叫Perceptual Metric Quality。

第二個問題:為什麼叫3D mesh

3D我們都知道了就是三維的意思,那mesh呢,其實mesh就是網格的意思,總的意思就是一個3D物體使用了mesh來表示,mesh就是一種表示方式,就跟圖像是使用像素來表示。當然還有其他的表示方式,比如點雲,體素,曲線等,目前使用最多的就是三角網格。

第三個問題:為什麼要進行品質評估

在第一個問題中我們已經提到了原因:尋求代價和品質間的平衡;那麼這些代價主要指什麼?其實品質評估貫穿于整個3D的處理流程的,與各個流程中的操作緊密相關。在壓縮進行中,我們為了取得盡量小的bit數,會使用到有損壓縮,在這個階段就會産生失真,就會影響到視覺品質,産生視覺失真,這時由于壓縮帶來的失真就是代價,那麼多大的失真會産生明顯的視覺感覺?還有那些失真是我們感覺不到的?這些都是我們需要探求 的,并求出一個代價和品質的平衡點,來使我們得到又便宜品質又好的3D。

好了以上就是我們簡介的内容,也算給出一些進入該科研領域的小百科。

人眼視覺系統–HVS(Human Vision System)

既然說道品質,最終的标準還是由人的眼睛說了算,是以在研究3D品質評估中,HVS是基礎,是最終面向的标準,是以我們首先對HVS要有一個基本的了解。

## 一、人眼對顔色和亮度的感覺 ##

人類對光的感覺是依靠視網膜(retina)細胞。cones(圓錐細胞)負責感覺光度(較強光)和色彩, rods(杆狀細胞)僅能感覺亮度,不能感覺顔色,但其對光的敏感度是cones的一萬倍。在微弱光環境下rods起主要作用,是以我們不能在暗環境中分辨顔色。一些數位相機的夜光拍攝模式也模拟了這一特性。根據人眼對光度和顔色的不同感覺,使得我們在圖像或者視訊進行中,會把光度和顔色分開來進行處理,專業術語中我們會把光度和色彩叫做亮度和色度,比如圖像的邊緣檢測就是在灰階空間進行的。

視網膜中三種圓錐細胞(cones) 有重疊的頻率響應曲線,但響應強度有所不同,他們 分别對紅(570nm), 綠(535nm), 藍(445nm)光有最敏感,共同決定了色彩感覺。亮度(luminance) 正比于視網膜細胞接受到的光強度能量,但人類對相同強度不同波長的光具有不同的敏感度。可感覺的波長範圍380nm~780nm,稱為可見光。其中對綠色(550nm)光産生最大的光強敏感度。

## 對時間頻率(temporal)的感覺 ##

實驗表明時間頻率響應還和平均亮度有關。在一般室内光強下,人眼對時間頻率的響應近似一個帶通濾波器。對15~20Hz信号最敏感,有很強閃爍感(flick),大于75Hz響應為0,閃爍感消失。剛到達閃爍感消失的頻率叫做臨界融合頻率(CFF)。在較暗的環境下,呈低通特性,且CFF會降低,這時對5Hz信号最敏感,大于25Hz閃爍基本消失。電影院環境很暗,放映機的重新整理率為24Hz也不感到閃爍, 這樣可以減少膠卷用量和機器的轉速。而電腦顯示器亮度較大,需要75Hz閃爍感才消失。閃爍消失後,亮度感覺等于亮度時間平均值(塔魯伯法則)。這種低通特性,也可以解析為視覺暫留特性,即當影像消失/變化時,大腦的影像不會立刻消失,而是保留一個短暫時間。生活中常感受到的動态模糊,運動殘像也和這個有關。有很多電子産品設計利用了這一現象,例如LED數位管的動态掃描,LED旋轉字幕等。

## 對運動物體的感覺 ##

觀察一個運動物體,眼球會自動跟随其運動,這種現象叫随從運動(eye pursuit movement)。這時眼球和物體的相對速度會降低,我們能更清晰地辨認物體。例如觀看球類比賽(如棒球),盡管棒球的運動速度很快,由于随從運動,我們仍夠看得到球的大概樣子 (但會有運動模糊)。如果我們把眼睛跟着風扇轉動方向轉動,會發現對扇葉細節看得較清楚。眼球随從最大速度為4~5度/秒,是以我們不可能看清楚一顆子彈飛行。

## 對空間頻率的感覺 ## 即影像在空間中的變化速度。用亮度呈空間正弦變化的條紋做測試,亮度Y(x,y) = B(1+mcos2πfx), 給定條紋頻率f為一固定值(看作是寬度),改變振幅m(看作對比度),測試分辨能力。顯然m越大分辨越清楚,測試不同條件下(不同cpd)可分辨的最少m值,定義1/mmin為對比敏感度(contrast sensitivity)。定義人眼的對空間感覺的角度頻率:cpd: cycle / degree ,表示眼球每轉動一度掃過的黑白條紋周期數。對給定的條紋,這個值與人眼到顯示屏的距離有關,對于同樣大小的螢幕,離開越遠,cpd越大。 通常人眼對空間的感覺相當于一個帶通濾波器。最敏感在2~5個cpd ,空間截止頻率為30cpd。比如我們看油畫和電視機螢幕時,當距離離開一定遠,cpd增大,人的眼睛就分辨不了象素點細節,便感覺不到顆粒感了。 當人觀察一個靜止影像時,眼球不會靜止一處(精神病人除外), 通常停留在一處幾百毫秒完成取像後,移到别處取像,如此持續不斷。 這種運動稱為跳躍性運動(saccadic eye movement)。研究表明跳躍性運動可以增大對比敏感度,但敏感度峰值卻減少。 在3D品質評估不但要涉及生理模型(如HVS),還會涉及心理模型,是以3D是一個複雜的課題,需要考慮因素很多。

||HVS的參考了百度百科