-8M: A Large-Scale Video ?
作者以1帧每秒的速度解码视频 , 同时利用预训练在上的Deep CNN来抽取隐藏的表征 。
作者首先利用 视频标注系统对-8m进行标注 , 同时利用包括人力手动过滤的过滤规则对标签进行相应的筛选
同时作者也提出-8m的数据量较大以及种类的多样性 , 对进一步视频理解与表征学习有进一步的促进作用 。
文章插图
作者将视频的前六分钟以一帧每秒来解码 , 将其喂进 , 将最后一层隐藏层的relu激活后的输出作为特征表示 。每秒的视频都是2048维 。同时移除了动作的特征 , 研究表明随着视频的大小与多样性的提升 , 效果会递减 。
后续 , 作者使用了PCA+白化处理 , 量化来对数据进行压缩 , 同时作者说明了大小的变化只会造成1%的变化 。
from Frame
对于frame-level的特征 , 作者给出了三种参考方法:+ , deep bag of , lstm 。
Video level
作者提出利用frame-level特征来表示video-level特征
文章插图
同时针对video-level给出了相应的模型
from Video
作者提出三种参考方法:hinge loss , , -of-2-
整体来看 , lstm表现较好 , 同时作者提出可以使用从video中取样多个定长的片段后平均结果来进行数据增强 。
【YouTube-8M: A Large】这对处理frame-level 是个很好的想法 。