Reinforcement Learning Based Meta( 六 )


奖励系数γ:
为了分析奖励因子γ如何影响我们的RL代理的性质,我们记录了平均推理路径长度与奖励因子在推理过程中 。如图4b所示,随着奖励因子的增加,平均推理路径长度也增加,说明γ灵活地控制了RL agent的探索偏好 。此外,虽然较大的奖励因子可以使agent找到更长的路径,但我们也发现当奖励因子< 0.8时,训练变得非常缓慢,这是由于低奖励反馈造成的梯度消失
6.总结
【Reinforcement Learning Based Meta】在本文中,我们提出了一个RL框架,该框架可以在大规模异构信息网络中自动挖掘有趣的元路径,无需任何人工监督 。更具体地说,我们利用类型上下文表示学习将强化学习扩展到百万级hin 。与以往在离散空间中操作的寻径模型不同,我们的方法允许agent在连续空间中进行多跳推理,从而控制所找到的元路径的分布,从而显著减小大搜索空间的大小 。这些有效的元路径也可以用于下游HIN分析任务 。我们在两个HIN(Yago和NELL)上进行了元路径挖掘,在六个主题上产生了合理的元路径 。这些元路径进一步用于执行链接预测任务,以评估我们的模型 。实验结果表明,这些元路径训练的分类器性能普遍优于其他基线 。