Reinforcement Learning Based Meta( 三 )


多跳推理与RL路径实例生成:RL代理进行多跳推理,生成各种路径实例 。代理从源头对象开始,奥巴马和特朗普 。然后观察当前状态,并决定通过策略网络移动到下一个有最大概率到达目标对象的对象 。智能体在观察和运动之间交替进行,直到到达目标物体或最大长度,从而产生一个轨迹 。一集的轨迹就是主题为的路径实例 。推理过程可以形式化为马尔可夫决策过程(MDP),代理可以通过强化算法进行训练 。
来自路径实例的元路径归纳:我们通过在类型有向无环图(DAG)中搜索最低公共祖先(least, LCA)来进一步细化和总结这些路径实例,从而生成各种元路径 。
4.1多跳推理与RL路径实例生成
in HINs
强化学习遵循马尔可夫决策过程(, MDP)公式,该公式由HIN通过顺序探索和利用与环境的交互进行学习 。在HIN中,我们用四元组(S, a, P, R)形式化RL,其元素将在下面详细阐述 。

Reinforcement Learning Based Meta

文章插图
状态
其中添加了启动状态指示器“ST”,以指示代理的初始状态 。终端状态为(vt?1,rt, vd, vd) 。每个状态都掌握了代理在HIN中的位置 。在执行一个操作后,代理将移动到下一个状态 。
动作
状态si = (vi, ri+1, vi+1, vd)的作用空间Asi是当前对象vi在HIN中的出边集合,其中Asi = {(r, v)|(vi, r, v)∈G, v /∈{v0, v1,···,vd}} 。代理从源对象v0开始,使用策略网络来预测最有希望的路径,然后每一步扩展它的路径,直到到达目标对象vd
转移
奖励
给定一对(v0, vd),如果agent到达目标对象,即vi = vd,则将agent的轨迹标记为发现成功 。每一跳的奖励定义如下:
其中γ >0为奖励因子,τi为轨迹的第i步 。通过灵活的奖励因素控制长期和短期奖励反馈之间的权衡 。如果γ < 1,代理可能会选择一个短的寻找路径 。如果γ >为1,代理将选择较长的路径 。
这里需要注意的是,积极奖励通常会受到稀疏性问题的影响,即只有到达正确的目标后才会获得奖励 。为了解决这个奖励稀少的问题,我们增加了另一个操作选项,标记为“OP”,即
。“OP”表示代理没有到达正确的对象,因此它会停止,并接受负奖励 。这尤其有助于防止agent陷入中间状态,从而加快训练的收敛速度 。
策略网络
由于复杂HIN中搜索空间大,我们设计了一个无模型策略网络π(s, a) = P (a|s;θ)基于深度学习在连续空间中建模RL agent,其中θ为神经网络参数 。考虑到智能体需要进行顺序决策,我们引入历史向量来保存历史信息,以便更好地指导智能体 。给定步长t时的轨迹τ,历史向量由最后历史ht?1和最后状态st?1决定
注意,式(2)是递归公式 。为了编码历史向量,我们引入了一种类似于图2所示的GRU (Cho et al. 2014)的门控机制来控制历史信息的记忆或遗忘 。
H的定义如下:
式中zt∈Rd为更新门,qt∈Rd为复位门,?为产品,ht为隐藏层,[;]表示连接操作,f为带激活函数的全连接层 。基于类似于gru的循环细胞结构,根据智能体的运动动态更新历史向量 。此外,不像经典的GRU细胞使用ht来预测y,我们发现?ht在HIN环境下工作得更好 。因此,y的分布,即所有可能的动作,定义如下:
其中a∈R| a |表示所有动作的概率分布 。因此,代理选择概率最大的操作,然后移动到下一个状态 。
为对象表示类型上下文学习
由于HIN中对象的规模大、语义环境复杂,对状态下的每个对象进行建模是一项具有挑战性的工作 。一种解决方案是使用训练前的嵌入或内容信息来表示对象和关系 。然而,在获得预训练之前,HIN中的大多数嵌入学习方法仍然需要定义良好的元路径(Fu, Lee, and Lei 2017) 。另一个问题是用有限维向量初始化对象和关系 。但是,当对象数量为百万级时,它会大大增加所需的内存存储 。