【论文导读】DAG( 五 )


定义增广的拉格朗日函数
其中λ是拉格朗日乘数,c是惩罚参数 。当c=+∞时,Lc(A,θ,λ)的最小化器必须满足h(A)=0,在这种情况下,Lc(A,θ,λ)等于目标函数f(A,θ) 。因此,策略是逐步增加c,对于每一个c来说,最小化无约束的增强拉格朗日 。拉格朗日乘数λ也相应地被更新,使其收敛到最优条件下的乘数 。
存在一些更新λ和增加c的变体,但一个典型的有效规则是这样的:
其中η>1和γ 4 实验
在本节中,我们提出了一套全面的实验来证明所提出的方法DAG-GNN的有效性 。在第4.1节中,我们与Zheng等人(2018)提出的基于线性SEM的方法DAG-在由抽样广义线性模型产生的合成数据集上进行比较,重点是非线性数据和矢量值数据(d>1) 。在第4.2节中,我们展示了我们的模型在离散数据方面的能力,这些数据经常出现在具有评估质量的基础真相的基准数据集中 。为了进一步说明所提出的方法的有用性,在第4.3节中,我们将DAG-GNN应用于一个蛋白质数据集,用于发现一致的蛋白质信号网络,以及一个知识库数据集,用于学习因果关系 。
我们的实现是基于(等人,2017) 。我们使用Adam( & Ba, 2015)来解决子问题(14) 。为了避免过度参数化,我们将变异后验q(Z|X)参数化为具有恒定单位方差的派生高斯,同样,对于似然p(X|Z)也是如此 。当提取DAG时,我们使用阈值0.3,遵循Zheng等人(2018)的建议 。对于基准和应用数据集,我们在目标函数中包括A的Huber-norm正则化,以鼓励更快速的收敛 。
4.1合成数据集
合成数据集是以如下方式产生的 。我们首先使用预期节点度为3的Erdos-Renyi模型生成一个随机的DAG,然后为边分配统一的随机权重,得到加权的邻接矩阵A 。通过对(广义)线性模型
进行抽样,产生一个样本X,其函数g即将阐述 。噪声Z遵循标准的矩阵正态 。当维度d=1时,我们用小写字母表示向量;即x=g(AT x)+z 。我们将DAG-GNN与DAG-进行比较,并报告(SHD)和falserate(FDR),每个都是五个随机重复的平均数 。在样本量n=5000的情况下,我们在四种图的大小m∈{10, 20, 50, 100}上进行了实验 。在第4.1.1和4.1.2节中,我们考虑标量值变量(d=1),在第4.1.3节中考虑矢量值变量(d>1) 。
4.1.1 线性情况
这种情况是线性SEM模型,g是恒等映射 。SHD和FDR绘制在图2中 。我们可以看到,当图形较大时,用所提方法学习的图形比用DAG-学习的图形要准确得多 。
4.1.2非线性情况
我们现在考虑由以下模型产生的数据
对于一些非线性函数h.采取一阶近似
(忽略x的高阶项),可以得到图邻接矩阵的修正近似h‘(0) A 。这个近似的基本事实保持了DAG的结构,只是对边缘权重进行了缩放 。
我们取h(x)=cos(x+1),并在图3中画出SHD和FDR 。我们观察到DAG-GNN在SHD方面比DAG-略有改善 。此外,FDR也有很大的提高,大约为3倍,这表明DAG-GNN在选择正确的边上更准确 。这一观察结果与图4中显示的参数估计值一致,其中基本事实( truth)被设定为- sin(1)A 。热图证实了DAG-GNN导致了更少的 "误报",并恢复了一个相对更稀疏的矩阵 。
我们进一步试验了一个更复杂的非线性生成模型,其中非线性发生在变量的线性组合之后,而前面的情况是在线性组合之前对变量施加非线性 。具体来说,我们考虑
并将结果绘制在图5中 。我们可以看到,在较高的非线性的情况下,所提出的方法在SHD和FDR方面明显优于DAG-的结果 。
4.1.3 向量的情形
我们提出的方法提供了一个建模的好处,即变量可以是d>1的矢量值 。此外,由于Z位于自动编码器的潜在空间,而不是像线性SEM那样被解释为噪声,(因此)如果他/她认为变量有较低维度,可以采取较小的列维d_Z