融入知识图谱的对话系统论文解读：Thinking Globally _背景

论文标题：
,:-to-LocalforBased
该论文主要解决基于背景知识的对话系统中知识选择的问题，引入-to-local（GLKS）机制，可以选择合适的背景知识生成
给定对话内容和背景知识，首先学习到topic来编码那些最有可能被用到生成的text ，该可以在解码阶段每个时间步指导知识的选择（KS）
现存的 Based(BBCs) 主要分为（）和 based 两种方法，前者通过学习两个指针从背景信息中提取spans作为，虽然在发现知识方面优于 based方法，但存在两个问题，1）大多情况下生成的不自然，2）对话系统中一般没有标准答案
【融入知识图谱的对话系统论文解读：Thinking Globally】现存的 based 方法通常采取local ，每个时间步仅仅根据当前的解码状态选择一个token，这样做的问题是缺少更的
提出改进
GLKS, ,of four :&, a(GKS) , a State , and a Local(LKS) .
and
用bigru将背景知识和对话转化成
(GKS)
该模块用于计算背景和的匹配程度，步骤较多
首先分别将背景和的向量 H K H^K HK和 H X H^X HX与的最后一个h ∣ X ∣ x h_{|X|}^x h∣X∣x?用进行聚合
然后计算M
对X维度做最大池化的意义在于找出与每个背景token相关性最大的 token，进而得到与整句背景相关性最大的w x ? > k w_{x->k} wx?>k?，其中每个元素代表了到背景token的转移概率
该w x ? > k w_{x->k} wx?>k?仅考虑了token级别的，缺少全局的视角。
于是引入“m- size& sum” 计算，首先从w x ? > k w_{x->k} wx?>k?中提取滑动窗口大小为m的相邻，然后进行sum up
具体而言
下标代表了元素的起始和终止位置
通过对应的“m-size& ”操作可以得到 unit
其中的是用的最后一个h ∣ X ∣ x h_{|X|}^x h∣X∣x?和背景的每个h i k h_i^k hik?做dot
H ^ K \hat{\{H}}^{K} H^K中每个元素代表了背景语句K中从L到L+m个token的语义
最终得到topic

文章插图
State
用于初始化的时间步并且在之后的每个时间步进行更新
Local(LKS)
用于在解码阶段预测的token，来源于 (withP V ( y t ) P^V (yt ) PV(yt)) 或者 K (withP K ( y t ) P^K (yt ) PK(yt))
具体步骤如下
首先将topic，解码阶段的state和上一个时间步生成的 token拼接起来，然后和背景K语句做得到-aware bg reph ^ t K \hat{\{h}}_t^{K} h^tK?向量，然后用相似的方式得到-awarerep-h ^ t X \hat{\{h}}_t^{X} h^tX?
构造，经过线性层后用预测 P V ( y t ) P^V (yt ) PV(yt)
损失函数分三部分组成：
loss, theloss, and theloss.
and