【论文导读】DAG( 四 )


我到现在也不知道为什么 ………我猜可能做了一些估计,我先发邮件问问吧 。
请注意,在自动编码器框架下,Z被认为是潜在的(而不是线性SEM中的噪声) 。因此,Z的列维可能与d不同 。从神经网络的角度来看,改变Z的列维只影响到参数矩阵W2和W3的大小 。有时,如果观察到数据的内在维度较小,人们可能希望使用一个比d小的数字 。
图1显示了结构的说明 。
3.5离散变量
【主要问题所在,之后认真看看】
所提方法的一个优点是它能自然地处理离散变量 。我们假设每个变量j有有限且基数()为d 。
因此,我们让X的每一行都是一个one-hot向量,
one-hot向量形式_予亭的博客-CSDN博客_one-hot
我们仍然使用标准的矩阵正态来模拟先验,使用派生高斯来模拟变分后验,(6)是编码器 。另一方面,我们需要稍微修改似然,以应对变量的离散性 。
具体来说,我们让p(X|Z)是一个具有概率矩阵P_X的派生分类分布(),其中每一行是相应分类变量的概率向量 。为了实现这一点,我们将f2从身份映射改为逐行的,并将解码器(7)修改为
相应地,对于ELBO,KL项(8)保持不变 。但重建项(9)需要修改为
其中P ^{(l)}_X是解码器(10)的输出,其输入为蒙特卡洛样本Z^(l) ~ q(Z|X), l=1,...,L.
3.6 与线性SEM关系
从上面的讨论中可以看出,我们提出的模型是如何从线性SEM发展而来的:我们将非线性应用于SEM的抽样程序(2),将产生的模型作为一个解码器,并与之搭配一个变分编码器来进行可操作的学习 。与普通的自动编码器相比,变分版本允许对潜在空间进行建模,并从中生成样本 。
现在,我们以相反的思维流程,来建立Zheng等人(2018)所考虑的线性SEM的损失函数与我们的损失函数之间的联系 。我们首先剥去自动编码器的变异成分 。这个普通版本使用(5)作为编码器,(3)作为解码器 。为了表述清楚,我们把Xb写成解码器的输出,以区别于编码器的输入X 。一个典型的(最小化的)loss函数是:
其中第一项是重建误差,第二项是潜在空间的正则化 。人们认识到,如果标准差SX为1,均值MX为Xb,并且只从变异后验中抽取一个蒙特卡洛样本,则重建误差与ELBO中的负重建精度()(9)相同,最多差一个常数 。此外,如果标准差SZ为1,均值MZ为Z,则正则项与ELBO中的KL散度相同 。
如果我们进一步剥离(可能是非线性的)映射f1和f4,那么编码器(5)和解码器(3)分别读取Z=(I - AT )X和Xb=(I - AT )-1Z 。这一对的结果是完美的重建,因此,样本损失减少到
这是Zheng等人(2018)使用的最小二乘法损失,也是合理的 。
3.7 非环约束
无论是最大化ELBO(4)还是最小化最小二乘法损失(12)都不能保证得到的A的相应图是无环的 。Zheng等人(2018)将损失函数与一个平等约束配对,该约束的满足确保了非环性 。
这个想法基于这样一个事实:非负邻接矩阵B的k次方的(i,j)元素的正性表明节点i和j之间存在一条长度为k的路径,因此,Bk的对角线的正性揭示了循环 。作者利用了一个技巧,即矩阵指数允许有一个泰勒级数(因为它在复平面上是解析的),这只不过是矩阵的所有非负整数幂的加权和 。幂的系数(身份矩阵Im×m)是1,因此对于DAG来说,B的指数的迹必须正好是m 。为了满足非负性,我们可以让B是A的元素平方,即B=A ?A 。
都是上的内容 略

【论文导读】DAG

文章插图
3.8
基于以上所述,学习问题为
其中未知数包括矩阵A和所有 的所有参数θ(目前我们有θ = {W1 , W2 , W3 , W4}). 非线性平等约束问题已被充分研究 。问题已被充分研究,我们使用增强的拉格朗日方法来解决它 。为了完整起见,我们在这里总结一下算法;读者可以参考标准的 教科书,如(1999)的第4.2节,以了解细节和收敛分析 。