融入知识图谱的对话系统论文解读:Thinking Globally

论文标题:
,:-to-LocalforBased
该论文主要解决基于背景知识的对话系统中知识选择的问题,引入-to-local(GLKS)机制,可以选择合适的背景知识生成
给定对话内容和背景知识,首先学习到topic来编码那些最有可能被用到生成的text ,该可以在解码阶段每个时间步指导知识的选择(KS)
现存的 Based(BBCs) 主要分为()和 based 两种方法,前者通过学习两个指针从背景信息中提取spans作为,虽然在发现知识方面优于 based方法,但存在两个问题,1)大多情况下生成的不自然,2)对话系统中一般没有标准答案
【融入知识图谱的对话系统论文解读:Thinking Globally】现存的 based 方法通常采取local ,每个时间步仅仅根据当前的解码状态选择一个token,这样做的问题是缺少更的
提出改进
GLKS, ,of four :&, a(GKS) , a State , and a Local(LKS) .
and
用bigru将背景知识和对话转化成
(GKS)
该模块用于计算背景和的匹配程度,步骤较多
首先分别将背景和的向量 H K H^K HK和 H X H^X HX与的最后一个h ∣ X ∣ x h_{|X|}^x h∣X∣x?用 进行聚合
然后计算M
对X维度做最大池化的意义在于找出与每个背景token相关性最大的 token,进而得到与整句背景相关性最大的w x ? > k w_{x->k} wx?>k?,其中每个元素代表了到背景token的转移概率
该w x ? > k w_{x->k} wx?>k?仅考虑了token级别的,缺少全局的视角 。
于是引入“m- size& sum” 计算,首先从w x ? > k w_{x->k} wx?>k?中提取滑动窗口大小为m的相邻,然后进行sum up
具体而言
下标代表了元素的起始和终止位置
通过对应的“m-size& ”操作可以得到 unit
其中的是用的最后一个h ∣ X ∣ x h_{|X|}^x h∣X∣x?和背景的每个h i k h_i^k hik?做dot
H ^ K \hat{\{H}}^{K} H^K中每个元素代表了背景语句K中从L到L+m个token的语义
最终得到topic

融入知识图谱的对话系统论文解读:Thinking Globally

文章插图
State
用于初始化的时间步并且在之后的每个时间步进行更新
Local(LKS)
用于在解码阶段预测的token,来源于 (withP V ( y t ) P^V (yt ) PV(yt)) 或者 K (withP K ( y t ) P^K (yt ) PK(yt))
具体步骤如下
首先将topic, 解码阶段的state和上一个时间步生成的 token拼接起来,然后和背景K语句做得到-aware bg reph ^ t K \hat{\{h}}_t^{K} h^tK?向量,然后用相似的方式得到-awarerep-h ^ t X \hat{\{h}}_t^{X} h^tX?
构造,经过线性层后用预测 P V ( y t ) P^V (yt ) PV(yt)
损失函数分三部分组成:
loss, theloss, and theloss.
and