天天看点

视频压缩对监控应用中目标检测系统性能的影响

作者:小小cv笔记
视频压缩对监控应用中目标检测系统性能的影响

arxiv 2022 11月论文

论文题目:

Impact of Video Compression on the Performance of Object Detection Systems for Surveillance Applications

论文地址:

https://arxiv.org/abs/2211.05805

摘要

本研究检验了H.264视频压缩与目标检测网络(YOLOv5)性能之间的关系,我们策划了一组50个监控视频,并注释了感兴趣的目标(人、自行车和车辆),视频使用恒定速率因子(CRF)值在{22、32、37、42、47}集合中按5个质量级别进行编码。将YOLOv5应用于压缩视频,分析每个CRF级别下的检测性能,测试结果表明,在中等压缩水平下,检测性能一般是稳健的;使用CRF值37而不是22可以显著降低比特率/文件大小,而不会对检测性能产生不利影响,然而,在较高的压缩水平下,检测性能明显下降,特别是在光照差和快速移动目标的复杂场景中,最后,在压缩图像上重新训练YOLOv5,当应用于高度压缩的镜头时,F1分数提高了1%。

1. 简介

安全行业正在不断推动能够进行高分辨率监控的增强型监控系统,对于这样的系统,为了在传输前减少大量的原始数据,有损耗的视频压缩是必不可少的。与此同时,人们对使用视频分析来自动解释视觉数据越来越感兴趣,对于利用视频分析的监控系统,选择合适的视频压缩率以使压缩视频的质量足以满足下游分析任务是至关重要的,然而,系统配置决策往往没有考虑特定的任务需求,例如可靠的对象检测所需的质量。

虽然降低视频分辨率是降低比特率的另一种方法,但监控系统操作员通常希望保留高分辨率视频,以用于偶尔的视觉检查和存档目的,因此,使用有效的编解码器进行视频压缩通常是控制比特率/文件大小的首选方法。

视频压缩对视频质量的影响是监控系统设计中经常被忽视的一个重要的实际考虑因素,本文研究了使用H.264标准的视频压缩与流行的目标检测网络YOLOv5性能之间的权衡,YOLOv5模型被训练来检测三种对象类别:人、自行车(包括自行车和摩托车)和车辆,我们表明,在某些场景下,目标检测网络可以容忍高水平的压缩,然而,当处理以具有挑战性的照明条件为特征的场景中的高度压缩图像时,检测性能开始崩溃。

此外,在较高的压缩水平下,对小的、低对比度的和快速移动的物体的检测尤其受到阻碍,最后,通过使用额外的损坏图像语料库重新训练YOLOv5,我们研究了在应用于高度压缩图像时提高目标检测系统性能的方法。通常,深度神经网络是在质量相对较好的图像数据集上进行训练的,然而在现实环境中,输入的视频片段经常受到广泛的压缩,不能假设是高质量的,为了在处理压缩视频时提高检测性能,我们通过数据增强创建了一个包含22,571张降级图像的训练数据集(图像的来源是MS COCO数据集),这些图像具有逼真的视频压缩人工制品和监视风格图像的其他特征,如重叠的时间戳。

1.1. 相关工作

文献中有几项工作研究了有损图像压缩对计算机视觉模型性能的影响,Poyser等人研究了H.264压缩对人类动作识别模型性能的影响,发现视频压缩对监控应用的目标检测系统性能有影响,即使用CRF值超过40时,性能显著下降。他们还研究了JPEG(联合摄影专家组)压缩对四个离散任务的影响:人体姿势估计、语义分割、物体检测和单目深度估计,他们发现,这些任务的模型都可以容忍中等水平的JPEG压缩,然而,当使用JPEG质量(量化)水平低于15%时,性能会显著下降。此外,他们发现,当模型应用于类似压缩的图像时,在压缩图像上重新训练模型会导致性能提高。

同样,Zanjani等和Benbarrad等发现,将基于压缩的数据增强作为模型训练过程的一部分,是一种有效的策略,可以提高分类模型应用于高度压缩图像时的性能。

Dodge和Karam和Roy等探讨了几种类型的质量失真(模糊、噪声、对比度、JPEG压缩等)对图像分类模型性能的影响,他们都表明,分类模型一般都是弹性的,除了最严格的JPEG压缩级别,然而,他们更容易受到模糊和噪声。

Gandor和Nalepa考虑了图像压缩对9种现成物体检测模型性能的影响,他们发现,JPEG压缩通常对对象检测器友好,但与JPEG压缩对图像分类模型影响相关的发现不同,随着JPEG质量的降低,检测性能会出现更明显的下降。Klare和Burge分析了H.264视频压缩对人脸识别性能的影响,他们报告了识别性能和比特率之间的非线性关系,视频可以压缩到128kb/s,在识别性能出现显著下降之前。

1.2. 贡献

我们的测试视频数据集专门针对监控应用程序,它包含了丰富的现实世界监控视频的集合,涵盖了广泛的情况,如白天/夜间场景,室内/室外场景,不同的天气条件,不同类型的镜头(例如,闭路电视,行车记录仪,随身携带)等,我们测试数据集的全面性和多样性意味着我们可以在更细粒度的水平上识别使用严重压缩视频导致检测性能特别差的场景。此外,虽然以前的研究依赖于用于通用应用程序的现成模型,并经过训练来检测许多不相关的类别,如香蕉、大象、牙刷等,但我们使用了为监控应用程序量身定制的模型,用于检测核心兴趣对象(即人、自行车和车辆)。

当应用于监控应用时,这些因素增加了我们发现的相关性和有效性,这代表了一个重要的实际贡献,因为了解输入压缩和输出检测性能之间的关系可以为未来视频设备和基础设施的设计决策提供信息。

此外,本文还研究了输入视频质量之间的关系,使用各种指标来测量,与每个压缩级别的检测性能。我们还报告了通过将压缩图像合并到训练数据集中,将网络应用于高度压缩的监视镜头时,可以在多大程度上恢复性能下降。

2. 方法

图1突出显示了本研究中的关键步骤,第一步涉及到监控视频的来源和注释,详见2.1节。接下来是步骤2和步骤3,系统地处理图1:本研究设计和实施所涉及的关键阶段。

视频压缩对监控应用中目标检测系统性能的影响

压缩视频和计算视频质量指标,如2.2节所述,步骤4涉及在每个压缩级别生成测试数据集的过程,这在第2.3节中概述,步骤5和步骤6涉及训练YOLOv5模型和评估检测性能,详细信息见章节2.4,步骤7通过使用额外的压缩训练数据语料库重新训练模型来提高检测性能,如第2.5节所述,最后一步是根据本研究的结果提出建议,这在第4节中完成。

2.1. 测试数据集

测试数据集由50个监控视频组成,这些视频经过精心挑选,涵盖了广泛的照明和天气条件,以及昼/夜场景,不同的视频分辨率(主要是360p、480p、720p和1080p),以及各种类型的监控视频(例如,闭路电视、行车记录仪和随身携带的视频等),这种多样性是必要的,这样我们就可以确定使用高压缩率对检测性能有特别不利影响的场景。

从这些测试视频中总共提取了5790帧,并对感兴趣的对象进行了标记,分别为人、自行车和车辆类别提取了13,924、1,633和18,695个边界框注释。

2.2视频压缩和视频质量指标

每个测试视频都使用H.264编解码器以5个不同的恒定速率因子(CRF = 22、32、37、42、47)级别进行编码,每个测试视频产生5个输出视频,图2显示了在每个CRF级别上编码的两个测试视频的示例,选择H.264是因为它是CCTV行业中广泛使用的编解码器。

视频压缩对监控应用中目标检测系统性能的影响

我们已经使用了x264实现的H.264编解码器,每个视频都计算了比特率和各种视频质量指标,质量指标为PSNR(峰值信噪比)、SSIM(结构相似指数)和VMAF(视频多方法评估融合),VMAF不同于PSNR和SSIM分数,因为它是一种感知视频质量指标,旨在接近人类对视频质量的感知。

VMAF通过计算几种质量评估算法的分数,并使用支持向量机(svm)融合它们来估计感知质量分数,VMAF评分从0到100分,0分为最低,100分为最高,计算指标的目标是看看它们是否与检测性能相关。

2.3从压缩视频中提取帧

提取压缩视频中与原始测试视频中的注释帧相对应的帧,以及每帧时间对应的PSNR, SSIM和VMAF分数。

2.4 YOLOv5网络详细情况

目标检测网络是一个定制的YOLOv5模型,用于检测3种对象类别,即:人、自行车和车辆,该模型是在一个包含229,489张图像的数据集上训练的,该数据集是几个开源数据集以及我们自己的内部数据集,以监视风格的镜头为特征,输入到网络的图像大小为544x544像素,YOLOv5应用于每个CRF级别的提取帧,随后进行了深入的分析,这在第3节中介绍。

2.5用压缩图像重新训练YOLOv5

具有代表性的训练数据是创建可靠有效的深度神经网络的基础,开源数据集中的绝大多数图像都不能代表监控风格的视频,这在处理包含突出压缩和运动伪影的高度压缩视频流时尤其相关,这可能会误导深度学习方法,这些方法是在高质量、最低压缩图像上训练的,为了解决这个问题,我们使用额外的压缩训练图像语料库重新训练YOLOv5,这些语料库模仿压缩监控视频数据上看到的压缩人工制品。

3.结果

YOLOv5网络对每个对象类别的性能在图3中的精度-召回率(PR)曲线中显示,可以观察到,对于三个最低压缩级别(CRF = 22,32,37),检测性能是一致的,当CRF值为22和CRF值为37时,每个对象类别的F1分数差异小于3%,在较高的压缩率(CRF = 42)下,我们开始看到检测性能的显著下降,在最高压缩设置(CRF = 47)下进一步加剧,其中自行车类的性能下降最大,一种可能的解释是,自行车看起来是结构精细的物体,这些细长的身体在压缩过程中很容易被破坏,相比之下,车辆通常表现为更大和更实质性的身体,即使受到广泛的压缩,也能保持其一般形状,如图2(a)所示。

视频压缩对监控应用中目标检测系统性能的影响

3.1. 物体大小对检测成功的影响

目标的大小和检测状态如图4所示,值得注意的是,在最低限度压缩(CRF = 22)和高度压缩(CRF = 47)的情况下,较大的物体往往都能被成功检测到,然而,较小的物体更容易受到视频压缩的影响,因为许多在CRF = 22时可检测到的物体在CRF = 47时无法检测到,我们可以在person类的例子中清楚地看到这一点。由图4可知,在CRF = 22时,90%未被检测的人被半径为112像素的曲线包围(将图像调整为YOLOv5网络的输入图像大小544x544后),在CRF = 47时,90%未被发现的人被半径为166像素的曲线包围,这表明随着压缩的增加,我们可以可靠检测的最小物体大小也会增加。

视频压缩对监控应用中目标检测系统性能的影响

3.2. F1在不同场景下的表现变化

可以观察到,在较低的压缩设置(CRF = 22,32,37)下,F1分数是一致的,而在最高的压缩级别(CRF = 47)下,F1分数明显偏离,一些场景保持了良好的检测性能,而另一些场景则导致了较差的检测结果,如图6所示的场景

视频压缩对监控应用中目标检测系统性能的影响

对在高压缩设置下产生糟糕检测结果的场景进行更仔细的检查,可以发现一些有趣的见解,以复杂照明条件为特征的场景,如黑暗的夜间场景和照明不均匀的场景,如图6所示的场景,尤其受压缩水平的影响,在高压缩水平下,对快速移动物体(如车辆)的检测也会受到影响。

3.3. 检测性能和视频质量指标之间的关系

从图7中可以观察到,当视频被适度压缩(CRF = 37)时,与视频被最小压缩(CRF = 22)时相比,平均检测性能仅略有下降,当CRF = 37时,F1平均得分为0.887,而当CRF = 22时,F1平均得分为0.894,虽然在CRF值为22和37时,检测性能率的差异可以忽略不计,但关键是比特率显著降低(2.32 Mb/s vs 0.34 Mb/s)。每个CRF级别的平均比特率的绝对值并没有太大的意义,因为比特率受到场景活动和分辨率的影响,然而,总的趋势是揭示的(即比特率如何随着CRF级别的增加而降低),这表明我们可以使用较低比特率的视频实现类似的检测成功率,这对存储和传输具有重要意义,然而,这只在一定程度上成立。从图7中可以观察到,在较高的CRF值下,YOLOv5的性能明显下降,当CRF = 42时,平均F1分数小于F1峰值分数的95%,当CRF = 47时,检测性能下降到F1峰值分数的85%,这强调了了解检测性能如何随压缩级别而变化的价值,以便可以建立合适的截止CRF值,超过该值检测性能将变得不可接受。

视频压缩对监控应用中目标检测系统性能的影响

仔细检查表1可以发现,当CRF = 32 (F1平均得分= 0.90)时,F1平均得分最高,而当CRF = 22 (F1平均得分= 0.89)时,F1平均得分最低,一个可能的原因可能是由于有损压缩方法(如H.264)的噪声衰减特性,其目的是删除视频中不必要的组件,同时保留底层信号,去除这样的冗余组件可能会对检测性能产生积极影响。

视频压缩对监控应用中目标检测系统性能的影响

视频质量在每个CRF级别上使用几个视频质量指标(PSNR, SSIM和VMAF)进行评估,从图7中可以观察到,在VMAF评分的情况下,三个CRF水平都提供了相似的良好检测性能(CRF = 22,32,37),它们非常紧密地聚集在一起,这与PSNR和SSIM评分形成对比,尽管检测性能差异很小,但这些CRF水平之间的分布更大,这表明VMAF可以用作更好的编码决策的标准,并预测视频是否被过度压缩到对检测性能有明显不利影响的程度,例如,根据我们的实验,我们可以规定VMAF分数在80以上的压缩视频在检测性能上不太可能有明显的下降,尽管在这个方向上还需要进行更多的工作。

3.4. 用压缩数据重新训练YOLO

为了提高物体检测系统在应用于高度压缩图像时的性能,我们使用额外的22,571个训练图像语料库重新训练YOLOv5模型,其中包含真实的视频压缩人工制品,这些图像来自MS-COCO图像的一个子集。视频压缩人工制品介绍如下:i)将图像转换为短段视频,ii)通过动态应用局部空间扭曲变形来模拟运动,iii)使用随机选择的编解码器压缩视频段,以及iv)从压缩视频段中提取帧,将用作训练图像,一些原始输入图像和相应损坏图像的示例如图8所示。

视频压缩对监控应用中目标检测系统性能的影响

此外,我们观察到,当时间戳(或其他一些文本)覆盖在感兴趣的对象之上时,基线对象检测网络不能可靠地检测对象,出于这个原因,我们引入了一个新的自定义增强,在图像上随机插入文本,文本由随机的日期和地址组成。

这些文字是为了模仿CCTV画面中经常出现的文字风格而设计的,文本的各种属性是随机的,例如文本大小、位置、字体和颜色,基线YOLOv5模型(模型A)和在附加损坏数据集(模型B)上训练的YOLOv5模型应用于最严重压缩的测试数据集(CRF = 47)时的性能如图9所示。

视频压缩对监控应用中目标检测系统性能的影响

使用附加损坏的训练图像训练的模型显示出边际改进(每个类的F1分数提高~1%)。

4. 讨论与结论

对于自动化监控系统来说,能够可靠地检测物体和事件是非常重要的,即使是在应对复杂的场景时,设计健壮的监控系统需要围绕硬件、系统配置参数和算法的正确选择做出明智的决策,在这些系统的设计中,视频压缩率是一个经常被忽视的关键配置参数。

在这项研究中,我们研究了视频压缩如何影响目标检测网络的性能,我们训练YOLOv5模型来检测三种对象类别,即:人、自行车和车辆。检测性能通常是稳健的中等压缩水平;我们发现,当视频被最低限度压缩(CRF = 22)时,检测性能与被适度压缩(CRF = 37)时的差异可以忽略不计,这是值得注意的,因为我们可以实现显着的比特率节省,而不会在检测性能方面产生任何损失—在CRF = 22编码的视频的平均比特率为2.32 Mb/s,而在CRF = 37编码的视频的平均比特率为0.34 Mb/s,几乎低了7倍。

我们指出了不建议使用低比特率的情况,这包括快速移动的物体穿过黑暗场景或光照不均匀的场景(即过度曝光和光照不足的场景),在这些复杂的场景中,严重压缩的视频开始崩溃,视觉质量较低。

在实际应用中,衡量视频质量的最佳标准是物体检测模型等计算机视觉算法的成功率,作为这项研究的一部分,我们研究了在给定的CRF速率下,检测性能如何与已建立的视频质量指标(包括PSNR和SSIM)相关,近年来,人们把重点放在开发各种方法和技术来评估人类观察者对视频内容的感知质量上,一个流行的感知指标是VMAF。虽然VMAF主要用于评估娱乐部门的媒体,而不是用于CCTV任务,但我们发现它可能是一个很好的代理,用于预测视频是否被过度压缩到明显损害检测性能的程度,人类观察员通常会将VMAF得分为70分的视频解读为“好”和“一般”之间的投票,我们发现,平均而言,VMAF分数高于70的视频具有良好的检测性能(以F1分数衡量)。

为此需要进行更多的工作,以确定是否有将VMAF评分与检测成功联系起来的坚实基础,一个潜在的有前途的未来研究方向是使用视频质量度量(如VMAF)来量化视频质量退化,这样我们就可以控制视频数据的质量,从而确保检测成功不受低质量、过度压缩的输入视频数据的影响。

大多数可用的开源数据集包含的图像不能代表监控风格的镜头,特别是高度压缩的监控风格的镜头,仅使用这些图像训练深度神经网络可能会产生一个不太适合处理现实世界监控录像的模型,为了解决这个问题,我们使用额外的22,571张图像训练了一个新的YOLOv5模型,这些图像包含真实的视频压缩工件和CCTV镜头的特征。当应用于最高压缩图像(CRF = 47)时,这导致大多数类别的F1分数提高了1%,虽然这只是一个微小的改进,但仍有余地使用更多损坏的图像进行训练,并采用更复杂的增强操作来提高检测成功率,这是另一个可能的研究方向。

继续阅读