实体

论文地址:
文章标题:JointofandBased on a Novel(基于新标注方案的实体与关系联合抽取)Paper
文章出处:中国科学院
作者对本文的报告PPT:
实体和关系联合抽取是信息抽取中的重要任务 。为了解决这个问题,我们首先提出了一种新的标注方案,可以将联合提取任务转换为标注问题 。然后,基于我们的标注方案,我们研究了不同的端到端模型来直接提取实体及其关系,而不是分别识别实体和关系 。对远程监督方法产生的公开数据集进行实验,实验结果表明基于标注的方法优于现有的多数流水线和联合学习方法 。此外,本文提出的端到端模型在公开数据集上取得了最好的效果 。
一、
实体和关系的联合提取是从非结构化文本中同时检测实体提及并识别它们的语义关系,如图1所示 。不同于从给定句子中提取关系词的开放式信息抽取(Open IE)(Banko et al., 2007),在本任务中,从一个可能不出现在给定句子中预定关系集中提取关系词 。知识库的提取和自动构建是一个重要的问题 。
传统方法以流水线的方式处理这个任务,即首先提取实体(和,2007),然后识别它们之间的关系(Rink,2010) 。这个分离的框架使得任务易于处理,并且每个组件可以更灵活 。但它忽略了这两个子任务之间的相关性,每个子任务是一个独立的模型 。实体识别的结果可能会影响关系分类的性能并导致错误传播(Li和Ji,2014) 。
图一:任务的标准例句 。“-”是预定义关系集中的关系 。
与流水线方法不同的是,联合学习框架是使用单一模型将实体和关系一起提取出来 。它可以有效地整合实体和关系的信息,在这个任务中取得了较好的效果 。然而,大多数现有的联合方法是基于特征的结构化系统(Li和Ji,2014; Miwa和,2014; Yu和Lam,2010; Ren等,2017) 。他们需要复杂的特征工程,并严重依赖其他NLP工具包,这也可能导致错误传播 。为了减少特征提取的人工工作,最近(Miwa和,2016)提出了一种基于神经网络的端到端实体和关系提取方法 。虽然联合模型可以在一个模型中同时表示实体和共享参数之间的关系,但它们也可以分别提取实体和关系,产生冗余信息 。例如,图1中的句子包含三个实体:“ ”,“Trump”和“Apple Inc” 。但只有“ ”和“Trump”才有固定的关系“-” 。实体“Apple Inc”与这个句子中的其他实体没有明显的关系 。因此,从这个句子中提取的结果是{,-,},这里叫三元组 。
在本文中,我们重点提取由两个实体和这两个实体之间的一个关系组成的三元组 。因此,我们可以直接对三元组进行建模,而不是分别提取实体和关系 。基于这个动机,我们提出了一个标注方案,并配以端到端的模型来解决这个问题 。我们设计了一种新颖的标注方案,它包含实体信息和它们所持有的关系 。基于这种标注方案,实体和关系的联合提取可以转化为标记问题 。这样,我们也可以很容易地使用神经网络来建模任务,而不需要复杂的特征工程 。
最近,基于LSTM( and,1997)的端到端模型已经成功应用于各种标签任务:命名实体识别(等,2016),CCG (等,2016),词块分割(Zhai等,2017)等 。LSTM能够学习长期依赖性,这对序列建模任务是有利的 。因此,基于我们的标注方案,我们研究了不同种类的基于LSTM的端到端模型来共同提取实体和关系 。我们还修改了解码方法,增加了一个偏置损失,使其更适合我们的特殊标注 。
我们提出的方法是一个监督学习算法 。然而,实际上,手工标注具有大量实体和关系的训练集的过程耗费太大,并且容易出错 。因此,我们通过远程监督方法(Ren et al., 2017)产生的公开数据集进行实验来验证我们的方法 。实验结果表明我们的标注方案在这个任务中是有效的 。另外,我们的端到端模型可以在公共数据集上取得最好的结果 。