Reinforcement Learning Based Meta( 三 ) _路径

多跳推理与RL路径实例生成：RL代理进行多跳推理，生成各种路径实例。代理从源头对象开始，奥巴马和特朗普。然后观察当前状态，并决定通过策略网络移动到下一个有最大概率到达目标对象的对象。智能体在观察和运动之间交替进行，直到到达目标物体或最大长度，从而产生一个轨迹。一集的轨迹就是主题为的路径实例。推理过程可以形式化为马尔可夫决策过程(MDP)，代理可以通过强化算法进行训练。
来自路径实例的元路径归纳：我们通过在类型有向无环图(DAG)中搜索最低公共祖先(least, LCA)来进一步细化和总结这些路径实例，从而生成各种元路径。
4.1多跳推理与RL路径实例生成
in HINs
强化学习遵循马尔可夫决策过程(, MDP)公式，该公式由HIN通过顺序探索和利用与环境的交互进行学习。在HIN中，我们用四元组(S, a, P, R)形式化RL，其元素将在下面详细阐述。

文章插图
状态
其中添加了启动状态指示器“ST”，以指示代理的初始状态。终端状态为(vt?1,rt, vd, vd) 。每个状态都掌握了代理在HIN中的位置。在执行一个操作后，代理将移动到下一个状态。
动作
状态si = (vi, ri+1, vi+1, vd)的作用空间Asi是当前对象vi在HIN中的出边集合，其中Asi = {(r, v)|(vi, r, v)∈G, v /∈{v0, v1，···，vd}} 。代理从源对象v0开始，使用策略网络来预测最有希望的路径，然后每一步扩展它的路径，直到到达目标对象vd
转移
奖励
给定一对(v0, vd)，如果agent到达目标对象，即vi = vd，则将agent的轨迹标记为发现成功。每一跳的奖励定义如下:
其中γ >0为奖励因子，τi为轨迹的第i步。通过灵活的奖励因素控制长期和短期奖励反馈之间的权衡。如果γ < 1，代理可能会选择一个短的寻找路径。如果γ >为1，代理将选择较长的路径。
这里需要注意的是，积极奖励通常会受到稀疏性问题的影响，即只有到达正确的目标后才会获得奖励。为了解决这个奖励稀少的问题，我们增加了另一个操作选项，标记为“OP”，即
。“OP”表示代理没有到达正确的对象，因此它会停止，并接受负奖励。这尤其有助于防止agent陷入中间状态，从而加快训练的收敛速度。
策略网络
由于复杂HIN中搜索空间大，我们设计了一个无模型策略网络π(s, a) = P (a|s;θ)基于深度学习在连续空间中建模RL agent，其中θ为神经网络参数。考虑到智能体需要进行顺序决策，我们引入历史向量来保存历史信息，以便更好地指导智能体。给定步长t时的轨迹τ，历史向量由最后历史ht?1和最后状态st?1决定
注意，式(2)是递归公式。为了编码历史向量，我们引入了一种类似于图2所示的GRU (Cho et al. 2014)的门控机制来控制历史信息的记忆或遗忘。
H的定义如下:
式中zt∈Rd为更新门，qt∈Rd为复位门，?为产品，ht为隐藏层，[;]表示连接操作，f为带激活函数的全连接层。基于类似于gru的循环细胞结构，根据智能体的运动动态更新历史向量。此外，不像经典的GRU细胞使用ht来预测y，我们发现?ht在HIN环境下工作得更好。因此，y的分布，即所有可能的动作，定义如下:
其中a∈R| a |表示所有动作的概率分布。因此，代理选择概率最大的操作，然后移动到下一个状态。
为对象表示类型上下文学习
由于HIN中对象的规模大、语义环境复杂，对状态下的每个对象进行建模是一项具有挑战性的工作。一种解决方案是使用训练前的嵌入或内容信息来表示对象和关系。然而，在获得预训练之前，HIN中的大多数嵌入学习方法仍然需要定义良好的元路径(Fu, Lee, and Lei 2017) 。另一个问题是用有限维向量初始化对象和关系。但是，当对象数量为百万级时，它会大大增加所需的内存存储。