基于RGB视频数据的深度行为分类模型发展综述之二

发布时间：2020-02-10 05:22:47 所属栏目：模式来源：51CTO

导读：副标题#e# 摘要理解视频中的人体行为在视频监控、自动驾驶以及安全保障等领域有着广泛的应用前景。目前视频中的人体行为分类研究是对分割好的视频片段进行单人的行为分类。对视频中的人体行为分类研究已经从最初的几种简单人体动作到几乎包含所有日常生活

为了进一步提升模型的性能，研究者们在各个方面不断努力，包括使用多种输入数据形式(RGB图像，RGB差，光流图像，扭曲光流，运动矢量等等)，探究时序上的融合方法，将2D卷积核扩展为3D卷积核，提取关键视频帧，增加注意力机制等等。概括来讲，对于这三种深度行为分类模型的研究，重点在于如何更有效地挖掘更具有判别力的空域外观信息和更长期的时序运动信息。三种深度行为分类模型在UCF 101和Kinetics数据集上的性能如表2所示。

表 2 深度行为分类模型在UCF 101和Kinetics数据集上的性能对比基于RGB视频数据的深度行为分类模型发展综述之二

在表2数据中，基于RNN的行为分类模型的推理速度没有具体体现，但是从模型复杂度来看，其推理速度与双流法和3D网络相比没有任何优势，同时分类精度也有一定差距。这是因为基于RNN网络的分类模型虽然能进行更长期的时序建模，但其聚合空间信息以及表示时序上运动的能力都很有限。在2017年之前，双流架构良好的性能表现使得研究者们对双流架构的关注度非常高，相比之下3D网络的发展则十分缓慢。但是2017年之后，3D网络的关注度明显提高，原因可以归结于三点：(1)可以利用现有的数据训练深度3D网络。P3D，I3D等2D CNN扩展的3D网络可以使用大规模的图片数据集Imagenet进行预训练，并且大型视频数据集kinetics的提出使直接训练更深的3D网络成为可能。(2)光流无法很好地建模时序上的动态变化，并且计算量很大。2017年Facebook实验室探究了光流在行为分类中的作用，发现光流实际上无法提供与外观互补的运动信息，它能有效提高行为分类的精度是因为光流对图像外观的不变性。(3)视频本身是空时体，用3D网络进行空时建模更为直观。

应用于视频中行为分类的深度模型追随着图像任务上深度学习模型的发展步伐，从最初的11层的浅层3D网络C3D到在ResNet深度残差框架下扩展的3D网络Res-C3D，以及在ResNet-152层上实现的199层的P3D和152层的CSN，研究模型的深度越来越深，这极大地归功于可训练公开视频数据量的增加。在对3D空时建模不断地探索中，研究者们都试图在进一步提高行为分类精度的同时减少模型的参数和加快运算速度。这些研究都证明了3D空时卷积应用于视频上比2D卷积更具优势。因为视频本身是空时三维体，时间维度的信息对理解视频来说是必不可少的。

到目前为止，基于RGB视频数据的深度行为分类模型的研究取得了不错的分类效果，在目前最大规模的视频数据集Kinetics上分类精度达到了93.8%。然而，上述深度行为分类模型的研究都是基于对分割好的视频片段进行单人行为的分类。我们必须清醒的认识到，在真实的场景中，理解视频中的人体行为仍具有很大的挑战。

1、真实的视频场景中复杂的背景，光照变化、人体外貌变化、摄像机视角以及运动速度等不确定因素，都会影响深度行为分类模型的性能。

2、真实视频流中包含了大量长时间的非动作冗余视频段。在对人体行为分类的基础上，进一步提取明确人体行为的时间边界，则是视频时序行为检测任务。该任务也有研究者不断在当前深度行为分类模型的基础上尝试解决，但效果和速度都低于当前的应用要求。

3、基于RGB视频的深度行为分类模型能够从视频图像帧中获得细致的外观纹理特征，但是很难在空间和时间上对不同的人体运动建模。因此很难适用于多人的场景中。

【凡本网注明来源非中国IDC圈的作品，均转载自其它媒体，目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。】

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页