本文的主要贡献是:(1)提出了一种新的标注方案,联合提取实体和关系,可以很容易地将提取问题转化为标注任务 。(2)基于我们的标注方案,我们研究了不同类型的端到端模型来解决问题 。基于标记的方法比大多数现有的流水线和联合学习方法要好 。(3)此外,我们还开发了具有偏置损失函数的端到端模型,以适应新型标注,它可以增强相关实体之间的关联 。
二、 Works
实体与关系抽取是构建知识库的重要步骤,可为许多NLP任务带来益处 。两个主要框架已被广泛用于解决提取实体及其关系的问题 。一个是流水线方法,另一个是联合学习方法 。
流水线方法将这个任务视为两个分离的任务,即命名实体识别(NER)(和,2007)和关系分类(RC)(Rink,2010) 。经典的NER模型是线性统计模型,如隐马尔可夫模型(HMM)和条件随机场(CRF)(等,2014; Luo等,2015) 。最近,几个神经网络体系结构(Chiu和,2015; Huang等,2015; 等,2016)已经成功应用于NER,这被认为是一个连续的分词标记任务 。现有的关系分类方法也可以分为基于手工特征的方法(Rink,2010;,2004)和基于神经网络的方法(Xu,2015a; Zheng et al., 2016; Zeng,2014; Xu,2015b; dos,2015) 。
联合模型使用单一模型提取实体和关系 。大多数联合方法是基于特征的结构化系统(Ren等,2017; Yang和,2013; Singh等,2013; Miwa和,2014; Li和Ji,2014) 。最近,(Miwa和,2016)使用基于LSTM的模型来提取实体和关系,这可以减少人工工作 。
与上述方法不同的是,本文提出的方法是基于一种特殊的标记方式,使得我们可以很容易地使用端到端模型来提取结果而不需要NER(命名实体识别)和RC(关系分类) 。端到端的方法是将输入句子映射成有意义的向量,然后返回产生一个序列 。它广泛应用于机器翻译(和,2013; 等,2014)和序列标注任务(等,2016; 等,2016) 。大多数方法使用双向LSTM来对输入句子进行编码,但是解码方法总是不同的 。例如,(等,2016)使用CRF层来解码标注序列,而(等,2016; 和,2016)应用LSTM层来产生标注序列 。
三、
我们提出了一种新的标注方案和一个具有偏置目标函数的端到端模型来共同提取实体及其关系 。在本节中,我们首先介绍如何将提取问题转换为基于本文标注方法的标注问题 。然后我们将详细说明用来提取结果的模型 。
3.1、The(标注方案)
图二: “CP”是“-”的简称,“CF”是“-”的简称,是一个基于我们标注方案的例句的标准黄金标注方案 。
图2是标注结果的示例 。每个单词都被分配一个标签,用于提取结果 。标签“O”代表“Other”标签,这意味着相应的单词与提取结果无关 。除了“O”之外,其他标签由三部分组成:实体中的单词位置、关系类型和关系角色 。我们使用“BIES”(Begin, , End, )符号来表示单词在实体中的位置信息 。关系类型信息是从一组预定义的关系中获得的,关系角色信息由数字“1”和“2”表示 。提取的结果由三元组表示:(,,) 。“1”表示该词属于三元组中的第一个实体,而“2”则属于该关系类型后面的第二个实体 。因此,标签总数为Nt = 2 * 4 * | R | + 1,其中| R |是预定义的关系集的大小 。
文章插图
图2是一个说明我们的标注方法的例子 。输入句子包含两个三元组:{ , -, Trump}和{Apple Inc, -,Paul Jobs},其中“-”和“-”是预定义的关系类型 。”,“”,“Trump”,“Apple”,“Inc” ,“”, “Paul”和“Jobs”等词都与最终提取的结果有关 。因此,他们根据我们的特殊标签进行标注 。例如“”这个词是“ ”实体的第一个词,与“-”关系有关,所以它的标签是“B-CP-1” 。对应于“ ”的另一个实体“Trump”被标记为“S-CP-2” 。此外,与最终结果无关的其他字词标记为“O” 。
- 【论文笔记】ICRA2019 视觉里程计的损失函数:Beyond Photome
- 2020蓝天杯论文评比系统_产业动态 | 清华同方荣获第三届清洁能源供暖优秀工程
- SUBLIME 论文解读《Towards Unsupervised Deep
- 论文阅读---推荐、广告、增长
- php论文答辩一般会问什么问题,一般论文答辩可以看稿子吗
- 读论文 Early Exit or Not: Resource
- 【论文阅读】CVPR2022
- Towards Real-Time Multi
- 《云计算框架与应用课程论文》
- 基于jsp的企业员工信息管理系统的设计与实现--【毕业论文】