论文笔记--ERNIE-ViL:-Scene4. 文章亮点5. 原文传送门6.
1. 文章简介2. 文章概括
文章提出了一种基于Scene Graph (SGP)来进行多模态模型预训练的方法 , 得到预训练模型ERNIE-ViL 。实验证明 , ERNIE-ViL在多个NLP任务中达到了SOTA水平 , 且在VCR任务上实现3.7%的提升 , 表明SGP预训练目标对“需求模型理解详细语义对齐”的任务有显著的帮助 。
3 文章重点技术 3.1 模型架构
文章的目的是训练一个多模态模型 。常用的多模态模型训练方法包括统一的视觉-文本模型和双流两类 。文章选用的是双流跨模态 。具体来说 ,
3.2 Scene Graph (SGP)
首先简要介绍下Scene Graph(SG)的概念 。Scene Graph指包含视觉场景的结构化知识 , 其中graph的节点为图像中的目标(对应目标检测中的目标) , 边为目标之间的关系 。Scene graph中包含了很多语义信息 。参考.0[1]模型知识掩码的思想 , ERNIE-ViL将SG中的信息进行掩码和预测 , 具体包含目标预测、属性预测和关系预测三个目标 , 如下图左边所示
首先文章通过已有的Scene Graph 工具从文本中提取出SG , 如上图右边所示 。具体来说 , 给定句子 w w w , SG可表示为 G ( w ) = < O ( w ) , E ( w ) , K ( w ) > G(w) =G(w)= , 其中 O ( w ) O(w) O(w)为句子 w w w中出现的目标集合 , E ( w ) E(w) E(w)为句子中出现的目标之间关系集合 , K ( w ) K(w) K(w)为句子中出现的目标的属性集合 。
接下来文章通过三个预测任务来学习SG中出现的高级知识
4. 文章亮点
文章插图
文章提出了ERNIE-ViL模型 , 首次将Scene Graph知识引入到预训练的多模态模型 , 在包括VCR等下游任务中超过SOTA 。
5. 原文传送门
ERNIE-ViL:-Scene
6.
[1] 论文笔记–ERNIE 2.0: APre-for
【论文笔记--ERNIE】[2] 论文笔记–BERT: Pre- of Deepfor
- PE文件结构学习笔记
- [论文阅读]PKD——基于Pearson相关系数的目标检测器通用蒸馏框架
- 学习笔记:用python3实现全手工解压zip文件,包含所有实现的源代码
- redis笔记v-1.0
- [ADAS预研笔记]感知算法 - 引言及常用数据集
- Facebook,Kaiming He的PointRend我的阅读笔记
- 游戏的娱乐性与三防笔记本
- 学习笔记:vscode中python+django环境搭建
- LLaVA-Med 论文阅读笔记
- 学习笔记:哈夫曼树及其应用