基于RGB视频数据的深度行为分类模型发展综述之二

发布时间：2020-02-10 05:22:47 所属栏目：模式来源：51CTO

导读：副标题#e# 摘要理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活

副标题[/!--empirenews.page--]

摘要

理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活的几百类行为。上篇官微文章详细介绍了基于RGB视频数据的两种深度行为分类模型，本文将介绍第三种深度行为分类模型——基于3D卷积神经网络的，并对三种模型进行分析和对比。

基于 3D卷积网络深度行为分类模型

视频特征学习的难点在于时序特征的学习。表现良好的双流架构在基于2D CNN挖掘空间信息的同时，不断探索时序上运动特征的表达方式。这里的运动特征指的是视频帧外观的改变。视频本身就是一个3D体，用3D卷积的方式获取视频中的空时特征显然是更直观的，3D卷积网络(3D ConvNets)比2D卷积网络更适用于时空特征的学习。3D卷积与2D卷积的区别如图1所示，图中(a)(b)是2D卷积核分别应用于单帧图像和多帧图像(或者是单通道图像，多通道图像)，输出2D特征图，(c)是3D卷积核应用于3D视频体，输出的3D特征图保留了时间维度的信息。

基于RGB视频数据的深度行为分类模型发展综述之二

图 1 2D与3D卷积示意图

Baccouche等人[1]和Ji等人[2]首先提出了3D卷积网络，使用3D卷积核同时处理空间和时间维度，然而该3D卷积模型浅层且参数量巨大，十分臃肿。Karpathy [3]等人在研究如何使用2D CNN来融合时间信息时，发现在单个视频帧上运算的网络与处理整个视频空时体的网络表现差异很小，因此认为时间维度上的建模对于行为识别的精度并不重要。Facebook在2015年提出C3D[4]，该模型实现了与2014年双流法接近的视频行为分类的精度。它使用3D卷积和3D池化以及全连接层构成了11层的浅层网络(如图2)，其最大的优势在于速度，然而C3D的模型大小却达到321MB，甚至大于152层ResNet[5]的235MB模型。这样的模型训练起来是困难的，且无法在像ImageNet这样大规模图片数据集上预训练，浅层的网络也限制了模型的分类性能。2017年，Facebook实验室的Du Tran[6]等人又在残差网络框架下重新实现了C3D，使得推理速度快了两倍的同时模型参数也少了两倍。

基于RGB视频数据的深度行为分类模型发展综述之二

图 2 C3D模型示意图

为了进一步提高3D CNN模型的泛化能力，P3D[7]将三维卷积核分解为二维空间卷积和一维时间卷积((2+1)D卷积)(如图3)。

基于RGB视频数据的深度行为分类模型发展综述之二

图 3 3D卷积分解成(2+1)D卷积

Pseudo-3D(P3D)[7]在残差学习[5]的框架下，将2维的残差单元中的卷积核全部扩充成3维的卷积核，并将3*3*3的卷积核分解为一个1*3*3的二维空间卷积和3*1*1的一维时域卷积。P3D模型加深了模型深度的同时，提高了视频人体行为分类的精度，并且相比于原始的C3D降低了模型大小。I3D[8]是基于ImageNet预训练的Inception-V1骨干网络，将网络中的2D卷积核和池化核都扩展为3D的，同时结合双流网络处理连续多帧的 RGB图像和光流图像。使用大型视频数据集Kinetics预训练后，I3D模型在更小的UCF 101数据集上展现了优越的性能，成为了后续研究工作重点比较的模型。2018年Facebook和谷歌deepmina团队又分别在P3D和I3D的基础上，进一步探究3D空时卷积在行为识别中的作用，相继提出了R(2+1)D [9] 和S3D [10]。两个网络都采用了将3D卷积核分解为2D卷积核加1D卷积核的形式(如图3)，证明了从长期时序上学习视频的时间动态特征的必要性。R(2+1)D模型相比3D网络，在不增加模型参数量的情况下，具有更强的表达能力且更易优化，尤其是在网络层数加深时。S3D模型在准确率、模型容量、还有计算效率上都实现了比原始的I3D更好的性能，在S3D模型基础上S3D-G增加了上下文特征门控机制，进一步提高了行为分类的精度。视频的行为分类任务应用2D可分离卷积大大提升了精度与计算能力，受此启发，facebook在2019年最新的一个研究工作CSN[11]，考虑了卷积运算中通道交互的因素，将一个3D卷积核分为的传统卷积，用于通道交互;的深度卷积用于局部空时交互。CSN在显著减少模型参数量的同时又提升了精度，其中的通道分离对模型有正则化的作用，避免了过度拟合。本文在UCF101数据集和kinetics数据集上对上述3D网络模型的参数量，计算效率，以及分类精度做了对比。(如表1所示)。

表 1 在UCF101和kinetics数据集上比较3D卷积模型

基于RGB视频数据的深度行为分类模型发展综述之二

UCF 101数据集虽然是流行的视频行为分类标准，但研究者们都有的共识是其有限的视频数据量无法支持从头开始训练较深的CNN网络。上述3D CNN研究工作都关注对3D卷积核的分解，主要动机之一是将3D卷积核分解为2D卷积核和1D卷积核之后，其中的2D卷积核可以使用图像数据进行预训练，对于已标注视频数据的需求也会大大减少。Kinetics大规模视频数据集的出现给3D CNN的发展提供了新的前景。Hara等人[12]应用Kinetics数据集训练了基于残差网络及其扩展版本的不同深度的3D CNN网络，发现Kinetics的数据量已经足够支持训练152层的深度Resnet 3D网络，并且这样训练出来的简单的3D CNN结构的分类精度已经可以和I3D相比。Wang等人[13]则是在I3D三维网络的基础上，使用ResNet-101骨干网络，通过加入非局部模块来获得视频中更长距离的空时依赖关系，这样使得模型NL-I3D在仅输入RGB视频帧的情况下，行为分类的性能已经十分优越。

先进方法的比较分析

基于双流架构，RNN网络以及3D网络的深度行为分类模型示意图如图4所示。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页