3.2、From TagTo(从标记序列到提取结果)
根据图2中的标注序列,我们知道“Trump”和“ ”具有相同的关系类型“-”,“Apple Inc”和“ Paul Jobs”具有相同的关系类型“-” 。我们将具有相同关系类型的实体合并为一个三元组来获得最终结果 。因此,“Trump”和“ ”可以合并为关系类型为“-”的三联体 。因为,“Trump”的关系角色是“2”,“ ”是“1”,最终的结果是{ , , Trump} 。这同样适用于{Apple Inc, -,Paul Jobs} 。
此外,如果一个句子包含两个或更多具有相同关系类型的三元组,我们将每两个元素按照最接近的原则组合成一个三元组 。例如,如果图2中的关系类型“-”是“-”,则在给定句子中将有四个具有相同关系类型的实体 。“ ”最接近实体“Trump”,而“Apple Inc”最接近“Jobs”,因此结果将是{ , -, Trump}和{Apple Inc, -,Paul Jobs} 。
在本文中,我们只考虑一个实体属于一个三元组的情况,并且在将来的工作中考虑重叠关系的识别 。
3.3、The End-to-end Model(端到端模型)
近年来,基于神经网络的端到端模型在序列标注任务中得到了广泛的应用 。在本文中,我们采用了一个端到端的模型来生成标注序列,如图3所示 。它包含双向长短期记忆(Bi-LSTM)层来对输入句子和具有偏置损失的基于LSTM的解码层进行编码 。偏置损失可以增强实体标签的相关性 。
图三:我们的模型图 。(a)端到端模型的体系结构,(b)Bi-LSTM编码层中的LSTM记忆块,(c)LSTMd解码层中的LSTM记忆块 。
(1)Bi-LSTM编码层
在序列标注问题中,Bi-LSTM编码层已被证明有效捕获每个单词的语义信息 。它包含前向Lstm层,后向Lstm层和连接层 。词嵌入层将one-hot表示的单词转换为嵌入向量 。因此,一个单词序列可以表示为W = {w1,… wt,wt+1 … wn},其中wt∈Rd是对应于句中第t个单词的d维词向量,n是给定句子的长度 。在词嵌入层之后,有两个平行的LSTM层:前向LSTM层和后向LSTM层 。LSTM体系结构由一组递归连接的子网(称为记忆块)组成 。每个时间步是一个LSTM记忆块 。Bi-LSTM编码层中的LSTM记忆块用于根据前一个隐藏向量ht-1、前一个单元向量ct-1和当前输入词表示wt计算当前隐藏向量ht 。其结构图如图3(b)所示,具体操作定义如下:
其中i,f和o分别是输入门、忘记门和输出门,b是偏置项,c是记忆元,W(.)是参数 。对于每个词wt,前向LSTM层将通过考虑从词w1到wt的上下文信息(其被标记为ht(→))来编码wt 。类似地,后向LSTM层将基于从wn到wt的上下文信息来编码wt,其被标记为ht(←) 。最后,我们连接和来表示字t的编码信息,表示为ht=[ht(→),ht(←)] 。
(2)LSTM解码器层
我们也采用LSTM结构来生成标注序列 。当检测到单词wt的标注时,解码层的输入为:从Bi-LSTM编码层获得的ht,以前的预测标签表示Tt-1,以前的单元值:ct-1,以及解码层中的前一个隐藏向量ht-1 。图3(c)显示了LSTMd记忆块的结构图,具体操作定义如下:
最终的层根据标签预测向量Tt计算归一化实体标签概率:
Wy是矩阵,Nt是标签总数 。由于T与标签嵌入类似,并且LSTM能够学习长期相关性,所以解码方式可以对标签交互进行建模 。
(3)偏置目标函数
我们训练我们的模型来最大化数据的对数似然性,我们使用的优化方法是在(和,2012)提出的 。目标函数可以定义为:
|D|是训练集的大小,Lj是句子xj的长度,yi(j)是单词xj中词t的标注,pt(j)是在公式15中定义的归一化标注概率 。此外,I(O)是一个开关函数,以区分标注‘O’与可指示结果的相关标注间的损失 。他被定义如下:
- 【论文笔记】ICRA2019 视觉里程计的损失函数:Beyond Photome
- 2020蓝天杯论文评比系统_产业动态 | 清华同方荣获第三届清洁能源供暖优秀工程
- SUBLIME 论文解读《Towards Unsupervised Deep
- 论文阅读---推荐、广告、增长
- php论文答辩一般会问什么问题,一般论文答辩可以看稿子吗
- 读论文 Early Exit or Not: Resource
- 【论文阅读】CVPR2022
- Towards Real-Time Multi
- 《云计算框架与应用课程论文》
- 基于jsp的企业员工信息管理系统的设计与实现--【毕业论文】