STM SpatioTemporal and Motion Encoding for Action Recognition (ICCV 2019)

发表于 2019-12-04 | 分类于动作识别， 3D卷积

动作识别中最重要的特征是时空特征和运动特征，前者编码不同时间步空间特征的关系，后者表示相邻帧的运动特征。双流网络中的flow stream其实并不是时序stream，因为光流只表示相邻帧的运动信息，且stream的结构与空间stream几乎一模一样，因此，缺少获取长时时序关系 ...

An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition (CVPR 2019)

发表于 2019-11-28 | 分类于动作识别，骨架

本文提出了一种基于骨架的动作识别方法，Attention Enhanced Graph Convolutional LSTM Network (AGC-LSTM)，不仅能提取空间和时间的判别性特征，而且能探索其中的相互关系；还提出了一种时序分级结构来增加模型顶层的时序感受野， ...

发表于 2019-11-22 | 分类于动作识别， 3D卷积

当前的3D CNN的网络计算量比较大，而且相比于2D CNN，模型较大：如11层的C3D网络模型大小为321MB，而ResNet-152只有235MB。更重要的是，使用Sports-1M来finetuneResNet-152的效果，比从头开始训练C3D的效果好。另一种提取时空 ...

发表于 2019-11-11 | 分类于动作识别， Fusion ，双流

由于当前动作识别数据库规模较小，使得大部分方法的性能都不相上下，在网络结构方面没有大的突破，本文在一个新的Kinetics Human Action Video数据库上重新评估了当前的方法，相比于之前的数据库，Kinetics增加了两个数量级的数据，有400个人类动作，每一类 ...

发表于 2019-11-10 | 分类于动作识别， Fusion ，双流

现有的方法依赖光流特征，而传统的光流计算需要为CNN预先计算运动信息，这种两阶段方法计算量大，存储空间需求大，不是可端到端训练的。本文提出一种新的CNN结构用于提取运动信息，我们称之为hidden双流CNN，因为只需要原始像素作为输入，在不需要计算光流的情况下直接预测动作类别 ...

发表于 2019-11-07 | 分类于动作识别， VLAD

本文是为解决大规模visual place recognition问题，快速准确识别一个查询照片的位置，也就是说，给定一张图片A，要从其他图片中找到一张图片，这张中带有图片A中的地点，如下图所示。本文主要有三个贡献点：提出一个端到端可训练的卷积网络，核心部分NetVLAD是一 ...

发表于 2019-11-05 | 分类于动作识别， VLAD

本文介绍了一种新的用于动作识别的视频表示方法，通过将双流网络与科学系的时空特征组合，在视频的整个时空范围内聚合局部卷积特征，得到的结构是端到端可训练的，为整个视频分类。我们探索了沿空间和时间pooling的不同策略，以及几种组合不同stream信号的策略，我们发现联合pool ...

发表于 2019-11-01 | 分类于动作识别， Fusion ，双流

卷积网络在静态图片的识别中取得了很大的成效，但是在动作识别中，相比于传统方法，优势并没有那么明显，本文探索了基于卷积神经网络的动作识别方法，尤其是在有限的训练样本的情况下，提出了时序分割网络（Temporal Segment Network, TSN)，该方法是基于长时时序结 ...

发表于 2019-10-26 | 分类于动作识别， Fusion ，双流

最近的动作识别方法多是基于CNN结构来提出不同的解决方案，本文探索了几种融合卷积网络的方法，得到以下结论：在卷积层上进行时空融合，而非softmax层，既不会降低性能，还能减少参数；在最后卷积层进行（spatially）融合网络比在之前的网络中融合的效果好，在类别预测层上的融 ...

发表于 2019-10-25 | 分类于动作识别， Fusion ，双流

本文通过对人身体关节的跟踪集成了运动和外观信息，提出了P-CNN (Pose-based Convolutional Neural Network)描述子。在以往的动作识别方法中，基于局部运动描述子的方法在识别移动相机中的粗糙的动作中很成功，如站起来、挥手和跳舞等，基于全局特 ...