个人笔记


  • 首页

  • 标签

  • 分类

Long-term Recurrent Convolutional Networks for Visual Recognition and Description (CVPR 2015)

发表于 2019-10-24 | 分类于 动作识别 , RNN
  本文提出了LRCNs (Long-term Recurrent Convolutional Networks )模型,以端到端训练的方式结合了卷积和RNN,接受可变长的输入和输出,可用于行为识别,图片标题生成和视频描述。  相比于RNN,LSTM因为加入记 ...
阅读全文 »

Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks (ICCV 2015)

发表于 2019-10-22 | 分类于 动作识别 , Fusion , 双流
  3D卷积网络(这里指的是3D Convolutional Neural Networks for Human Action Recognition)虽然效果还不错,但是其参数量较多,而且训练数据的规模也没有现在这么大,所以网络参数不易优化,根据这个局限,本文提出将3D时间空间 ...
阅读全文 »

Learning Spatiotemporal Features with 3D Convolutional Networks (ICCV 2015)

发表于 2019-10-15 | 分类于 动作识别 , 3D卷积
  这篇文章的贡献点有三个:使用3D卷积网络来提取时空特征;使用3*3*3的小卷积核组成网络结构,识别效果最好;提出的C3D网络在动作识别中取得了state-of-the-art的效果,计算简单,容易训练和使用。另外,这篇论文主页公开了caffe版本的代码,caffe转Tenso ...
阅读全文 »

Two-Stream Convolutional Networks for Action Recognition in Videos (NIPS 2014)

发表于 2019-10-08 | 分类于 动作识别 , Fusion , 双流
  本文的目的是扩展现有的用于单张图片分类的卷积网络的能力,用于视频数据中的动作识别,为了达到这个目标,探索了一种不同的方法,用两个独立的识别stream(空间,时间),并将两个stream合并得到最终的结果。空间stream用于从静止的视频帧中识别动作,时间stream用于从以 ...
阅读全文 »

3D Convolutional Neural Networks for Human Action Recognition (PAMI 2013)

发表于 2019-09-26 | 分类于 动作识别 , 3D卷积
  本篇论文是从ICML2010的基础上扩展的,提出了能从原始输入同时提取时间和空间特征的3DCNN,还提出了辅助特征的结构。  先说动作识别,动作识别可以应用在视频监控,顾客属性和购物行为分析,而之前的方法大部分采用两步走的策略:基于原始输入提取手工特征、基 ...
阅读全文 »

Large-scale Video Classification with Convolutional Neural Networks (CVPR 2014)

发表于 2019-09-25 | 分类于 动作识别 , Fusion , 时空Fusion
  动作识别,即判断视频中人的动作的类别,其难点包括类内和类间差距(同一个动作,不同的人的表现可能有极大的不同)、运动特征提取(很难确定动作的起始点)、缺少标注良好的大数据集等。以往的方法多是基于人工提取的特征,提取感兴趣区域的局部特征,并将不同的特征组合起来,得到一个固定长度的 ...
阅读全文 »

关键点检测

发表于 2018-05-05 | 分类于 深度学习 , Keypoint
  注:本文介绍的RMPE方法在MPII和MSCOCO这两个数据库上的效果很好,AP超过了16年和17年coco比赛的第一名CMU和旷视,在实际中自己从网上找的图片进行测试,对一些比较简单的,比如人面对镜头整成站立或一些小的形变是比较鲁棒的,但当人存在较大弯曲(如杂技演员),就会 ...
阅读全文 »

Spatial Transformer Networks

发表于 2018-04-21 | 分类于 深度学习 , STN
  STN网络是谷歌提出来一个模型,可以看成CNN网络中的一个插件,从效果上看,STN网络能通过无监督的方式自动学习,找到图片中的ROI区域并进行一系列逆变换,将ROI区域的物体转换为正常形态,实现空间不变性。本文参考了此篇博客  一个好的分类模型应该能将物体 ...
阅读全文 »

显著性

发表于 2018-04-07 | 分类于 深度学习 , Salient
  在长期的进化中,人类拥有了在复杂环境中快速发现感兴趣目标的能力,这种高度发达的注意力机制使人们在看一张图片时,其注意点首先会落在更能刺激视觉的区域,即显著性区域。目前我们拥有海量的图像数据,而显著性目标检测即模仿人类的视觉注意力机制,在图片数据中找到最重要的信息,进行后续处理 ...
阅读全文 »
12

mna12478

19 日志
12 分类
39 标签
© 2020 mna12478
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4