天天看点

3D mesh 的质量评估(Perceptual Metrics Quality)

一、关于3Dmesh的简介

现在随着技术的快速发展,3D的实现和发展也变得越来越迅速。目前大家了解的比较多的且有直接感受的3D就是3D电影了,但那个并非是真正意义上的3D,那只是利用人眼视差形成的变换2D图像而已。另外一个让大家比较期待的就是虚拟现实的技术,其实虚拟现实从严格意义上来说,不能说是3D技术,而应该是信息融合技术。在本文中,我所提到的3D是有真实三维空间的物体,也就是“真三维“,具体可以看我的另一篇博客《对3D显示技术的初步分类》。在本文中我可能会更多地介绍学术意义上的东西,但不代表不实用,学术只是一种表达方式,我也会尽量说得简单些,不然就违背博客的含义了。

好了下面开始进入正文吧:

第一个问题:什么是3D质量评估

一个3D物体从采集到显示经历了许多过程:例如预处理,压缩,简化,传输,渲染,显示等等,整个过程是如何进行的以后我会专门讨论,这里就不深究了。在3D的整个处理流程中,我们有一点要清楚就是如何更好地展现给人的眼睛。这里更好讲的是一种平衡,或者是英文的tradeoff,举个生活中的例子:如何用较少的钱买到较好的手机,3D质量评估就是如何使用较少的代价(payload,到时会结合不同场景具体说明)去得到不错的3D模型。那么,怎么衡量你是用较少的钱买到了较好的手机呢?当然人会去用各种数据比较得到,对,说道重点了:可是3D 模型不会思考呀?所以3D质量评估就是来给3D模型思考总结来了,给代价和质量建立一个量度(metric),当然这个质量(quality)好不好最终还是要人眼说了算(perceptual),所以这个量度需要结合人眼主观去建立,这就涉及到质量评估里比较重要的与一个部分:主观测试实验。所以在论文中3D质量评估也叫Perceptual Metric Quality。

第二个问题:为什么叫3D mesh

3D我们都知道了就是三维的意思,那mesh呢,其实mesh就是网格的意思,总的意思就是一个3D物体使用了mesh来表示,mesh就是一种表示方式,就跟图像是使用像素来表示。当然还有其他的表示方式,比如点云,体素,曲线等,目前使用最多的就是三角网格。

第三个问题:为什么要进行质量评估

在第一个问题中我们已经提到了原因:寻求代价和质量间的平衡;那么这些代价主要指什么?其实质量评估贯穿于整个3D的处理流程的,与各个流程中的操作紧密相关。在压缩处理中,我们为了取得尽量小的bit数,会使用到有损压缩,在这个阶段就会产生失真,就会影响到视觉质量,产生视觉失真,这时由于压缩带来的失真就是代价,那么多大的失真会产生明显的视觉感知?还有那些失真是我们感知不到的?这些都是我们需要探求 的,并求出一个代价和质量的平衡点,来使我们得到又便宜质量又好的3D。

好了以上就是我们简介的内容,也算给出一些进入该科研领域的小百科。

人眼视觉系统–HVS(Human Vision System)

既然说道质量,最终的标准还是由人的眼睛说了算,所以在研究3D质量评估中,HVS是基础,是最终面向的标准,所以我们首先对HVS要有一个基本的了解。

## 一、人眼对颜色和亮度的感知 ##

人类对光的感知是依靠视网膜(retina)细胞。cones(圆锥细胞)负责感知光度(较强光)和色彩, rods(杆状细胞)仅能感知亮度,不能感知颜色,但其对光的敏感度是cones的一万倍。在微弱光环境下rods起主要作用,因此我们不能在暗环境中分辨颜色。一些数码相机的夜光拍摄模式也模拟了这一特性。根据人眼对光度和颜色的不同感知,使得我们在图像或者视频处理中,会把光度和颜色分开来进行处理,专业术语中我们会把光度和色彩叫做亮度和色度,比如图像的边缘检测就是在灰度空间进行的。

视网膜中三种圆锥细胞(cones) 有重叠的频率响应曲线,但响应强度有所不同,他们 分别对红(570nm), 绿(535nm), 蓝(445nm)光有最敏感,共同决定了色彩感觉。亮度(luminance) 正比于视网膜细胞接受到的光强度能量,但人类对相同强度不同波长的光具有不同的敏感度。可感知的波长范围380nm~780nm,称为可见光。其中对绿色(550nm)光产生最大的光强敏感度。

## 对时间频率(temporal)的感知 ##

实验表明时间频率响应还和平均亮度有关。在一般室内光强下,人眼对时间频率的响应近似一个带通滤波器。对15~20Hz信号最敏感,有很强闪烁感(flick),大于75Hz响应为0,闪烁感消失。刚到达闪烁感消失的频率叫做临界融合频率(CFF)。在较暗的环境下,呈低通特性,且CFF会降低,这时对5Hz信号最敏感,大于25Hz闪烁基本消失。电影院环境很暗,放映机的刷新率为24Hz也不感到闪烁, 这样可以减少胶卷用量和机器的转速。而电脑显示器亮度较大,需要75Hz闪烁感才消失。闪烁消失后,亮度感知等于亮度时间平均值(塔鲁伯法则)。这种低通特性,也可以解析为视觉暂留特性,即当影像消失/变化时,大脑的影像不会立刻消失,而是保留一个短暂时间。生活中常感受到的动态模糊,运动残像也和这个有关。有很多电子产品设计利用了这一现象,例如LED数码管的动态扫描,LED旋转字幕等。

## 对运动物体的感知 ##

观察一个运动物体,眼球会自动跟随其运动,这种现象叫随从运动(eye pursuit movement)。这时眼球和物体的相对速度会降低,我们能更清晰地辨认物体。例如观看球类比赛(如棒球),尽管棒球的运动速度很快,由于随从运动,我们仍够看得到球的大概样子 (但会有运动模糊)。如果我们把眼睛跟着风扇转动方向转动,会发现对扇叶细节看得较清楚。眼球随从最大速度为4~5度/秒,因此我们不可能看清楚一颗子弹飞行。

## 对空间频率的感知 ## 即影像在空间中的变化速度。用亮度呈空间正弦变化的条纹做测试,亮度Y(x,y) = B(1+mcos2πfx), 给定条纹频率f为一固定值(看作是宽度),改变振幅m(看作对比度),测试分辨能力。显然m越大分辨越清楚,测试不同条件下(不同cpd)可分辨的最少m值,定义1/mmin为对比敏感度(contrast sensitivity)。定义人眼的对空间感觉的角度频率:cpd: cycle / degree ,表示眼球每转动一度扫过的黑白条纹周期数。对给定的条纹,这个值与人眼到显示屏的距离有关,对于同样大小的屏幕,离开越远,cpd越大。 通常人眼对空间的感觉相当于一个带通滤波器。最敏感在2~5个cpd ,空间截止频率为30cpd。比如我们看油画和电视机屏幕时,当距离离开一定远,cpd增大,人的眼睛就分辨不了象素点细节,便感觉不到颗粒感了。 当人观察一个静止影像时,眼球不会静止一处(精神病人除外), 通常停留在一处几百毫秒完成取像后,移到别处取像,如此持续不断。 这种运动称为跳跃性运动(saccadic eye movement)。研究表明跳跃性运动可以增大对比敏感度,但敏感度峰值却减少。 在3D质量评估不但要涉及生理模型(如HVS),还会涉及心理模型,所以3D是一个复杂的课题,需要考虑因素很多。

||HVS的参考了百度百科