【论文导读】DAG( 四 ) _线性

我到现在也不知道为什么 ………我猜可能做了一些估计，我先发邮件问问吧。
请注意，在自动编码器框架下，Z被认为是潜在的（而不是线性SEM中的噪声）。因此，Z的列维可能与d不同。从神经网络的角度来看，改变Z的列维只影响到参数矩阵W2和W3的大小。有时，如果观察到数据的内在维度较小，人们可能希望使用一个比d小的数字。
图1显示了结构的说明。
３.５离散变量
【主要问题所在，之后认真看看】
所提方法的一个优点是它能自然地处理离散变量。我们假设每个变量j有有限且基数（）为d 。
因此，我们让X的每一行都是一个one-hot向量，
one-hot向量形式_予亭的博客-CSDN博客_one-hot
我们仍然使用标准的矩阵正态来模拟先验，使用派生高斯来模拟变分后验，（6）是编码器。另一方面，我们需要稍微修改似然，以应对变量的离散性。
具体来说，我们让p(X|Z)是一个具有概率矩阵P_X的派生分类分布（），其中每一行是相应分类变量的概率向量。为了实现这一点，我们将f2从身份映射改为逐行的，并将解码器（7）修改为
相应地，对于ELBO，KL项（8）保持不变。但重建项（9）需要修改为
其中P ^{(l)}_X是解码器（10）的输出，其输入为蒙特卡洛样本Z^(l) ～ q(Z|X), l=1,...,L.
3.6 与线性SEM关系
从上面的讨论中可以看出，我们提出的模型是如何从线性SEM发展而来的：我们将非线性应用于SEM的抽样程序（2），将产生的模型作为一个解码器，并与之搭配一个变分编码器来进行可操作的学习。与普通的自动编码器相比，变分版本允许对潜在空间进行建模，并从中生成样本。
现在，我们以相反的思维流程，来建立Zheng等人（2018）所考虑的线性SEM的损失函数与我们的损失函数之间的联系。我们首先剥去自动编码器的变异成分。这个普通版本使用（5）作为编码器，（3）作为解码器。为了表述清楚，我们把Xb写成解码器的输出，以区别于编码器的输入X 。一个典型的（最小化的）loss函数是：
其中第一项是重建误差，第二项是潜在空间的正则化。人们认识到，如果标准差SX为1，均值MX为Xb，并且只从变异后验中抽取一个蒙特卡洛样本，则重建误差与ELBO中的负重建精度（）（9）相同，最多差一个常数。此外，如果标准差SZ为1，均值MZ为Z，则正则项与ELBO中的KL散度相同。
如果我们进一步剥离（可能是非线性的）映射f1和f4，那么编码器（5）和解码器（3）分别读取Z=（I - AT ）X和Xb=（I - AT ）-1Z 。这一对的结果是完美的重建，因此，样本损失减少到
这是Zheng等人(2018)使用的最小二乘法损失，也是合理的。
3.7 非环约束
无论是最大化ELBO（4）还是最小化最小二乘法损失（12）都不能保证得到的A的相应图是无环的。Zheng等人（2018）将损失函数与一个平等约束配对，该约束的满足确保了非环性。
这个想法基于这样一个事实：非负邻接矩阵B的k次方的（i，j）元素的正性表明节点i和j之间存在一条长度为k的路径，因此，Bk的对角线的正性揭示了循环。作者利用了一个技巧，即矩阵指数允许有一个泰勒级数（因为它在复平面上是解析的），这只不过是矩阵的所有非负整数幂的加权和。幂的系数（身份矩阵Im×m）是1，因此对于DAG来说，B的指数的迹必须正好是m 。为了满足非负性，我们可以让B是A的元素平方，即B=A ?A 。
都是上的内容略

文章插图
3.8
基于以上所述，学习问题为
其中未知数包括矩阵A和所有的所有参数θ（目前我们有θ = {W1 , W2 , W3 , W4}). 非线性平等约束问题已被充分研究。问题已被充分研究，我们使用增强的拉格朗日方法来解决它。为了完整起见，我们在这里总结一下算法；读者可以参考标准的教科书，如(1999)的第4.2节，以了解细节和收敛分析。