Reinforcement Learning Based Meta( 四 ) _路径

一般来说，一个对象与一个类型集相关联，例如:Obama:{, , , }，Trump:{, , }，而Obama是Trump的类型兄弟，因为他们有相同的类型。类型信息不仅显式地表达了HIN中对象的上下文，而且还揭示了对象之间的内在相关性。因此，学习类型上下文允许代理有效地识别HIN中对象的上下文。最近的一些作品将类型信息放入知识图或信息网络中，从而在实验中取得了改进的结果(Xie, Liu, and Sun 2016) 。基于这一观察，我们提出了一种简单但有效的方法来对处于状态的对象建模，这有助于我们的RL方法处理大规模HIN 。对于具有类型集Tv?T的对象v, v的类型上下文表示定义如下
其中ωi∈Rd是Tv中的第i类向量。总之，对象的位置是由其类型上下文决定的。
4.2来自路径实例的元路径归纳
在本节中，我们将讨论如何从路径实例生成元路径。该方法可以训练一个具有多跳推理能力的代理在对象对(v0, vd)之间自动选择路径实例。路径实例即轨迹的形式为
。前面的作品假设HIN中的对象只有一种类型(Shi和 2014) 。因此，元路径是通过简单替换生成的。然而，在大规模HIN中，一个对象通常有多种类型。因此，简单的替换会产生大量的低相关性元路径。
因此，要将类型分配给对象，就必须减少类型集。一般HIN中的类型结构是用有向无环图(DAG)
的形式组织起来的，其中T是包含整个类型的集合，E表示两种类型之间的有向联系。DAG的边缘被认为是从父母指向孩子的，例如，总裁类型是从属类型的人。图2中的步骤2显示了一个DAG类型的玩具示例。要将类型赋给与类型集Tv相关联的对象，我们选择GTv的最低公共祖先(LCA) 。具体来说，我们在( et al. 2005)中使用了一种朴素的LCA算法来寻找与根类型最接近的类型，从而获得密钥类型。
在朴素的LCA算法中，它首先以宽度优先的方式遍历DAG，并为每个节点分配深度，然后简单地遍历DAG，找到被查询节点的祖先，从中选择深度最大的节点。原始LCA的输入是一个DAG GTv，而输出是一个包含几个键类型的集合。最后，我们可以通过识别输出类型和关系中的所有有效组合来识别元路径。

文章插图
4.3优化和训练
政策网络的目标函数是使长期累积奖励的期望最大化，
通过 ( 1992)，在行为主体与环境之间的相互作用所产生的一系列轨迹上积累的奖励
为了提高训练效率，我们将轨迹的最大长度限制为l 。当agent到达l时，查找过程停止，并返回负奖励。我们使用ADAM( and Ba 2014)对政策网络进行优化。参数θ每k集更新一次。
5.实验 5.1实验设置
为了验证MPDRL方法的效率和有效性，我们基于生成的元路径进行链接预测。链接预测为我们提供了一种可测量和客观的方法来评估我们发现的元路径(孟等人，2015) 。
数据集
我们对两个在线hin以及知识库Yago和(, 和 2007)和NELL ( et al. 2018)进行了实验，与模式简单的hin相比，它们包含更复杂的类型映射和关系映射。
Yago这是一个大规模的知识库，源自、和 (、和 2007) 。我们在这里使用Yago2的“核心事实”部分，它由1200万个事实、400万个实体、80万个类型和38个关系组成。
NELL是一个从超过10亿份文档的Web文本中提取的知识库。我们在这里使用NELL3的第1115个转储，它包含270万个事实、200万个实体、758种类型和833种关系。然后，我们使用关系泛化删除三元组，因为这个关系描述了已经包含的冗余对象类型信息。
基准
注意，基于嵌入的方法，如和，输出对象向量。为了对一对对象进行链接预测，我们使用两个对象嵌入的乘积作为SVM分类器的输入。在RL agent训练阶段，关键超参数设置如下:最大长度l固定为5，学习速率α为0.005，奖励因子γ为1.5，更新频率k为50 。V向量d是100