GNN中如何利用置信度和不确定性做文章( 二 )


本文作者提出GDC(Graph ), 它跟随机正则化方法不同,使用固定的采样率 rate或手动调整作为模型超参数,本文提出的自适应连接采样GDC它可以与GNN模型参数以全局和局部的方式联合训练 。存在一些问题,因为它没有考虑图的拓扑结构,只是把图上节点的特征随机的丢掉,本篇作者提出的GDC可以在每一个分别进行约束,此外,通过自适应地学习GDC中的连接采样,可以提供更好的随机正则化 。
作者进一步证明,在每个通道的GDC自适应连接采样可被视为GNN中的随机聚集和扩散,其贝叶斯近似解释与CNN的贝叶斯相似 。体而言,GNN输出的蒙特卡洛估计可用于评估预测性后验不确定性 。该公式的一个重要推论是,任何具有邻域采样的GNN,例如,都可以被视为其对应的贝叶斯近似 。
在基准数据集上的消融实验结果验证了自适应学习采样率是在半监督节点分类任务中提高GNNs性能的关键,使其不容易过平滑和过拟合,具有更稳健的预测能力 。
3. Bike Flowwith Multi-Graph(ACM 2018)
本文的问题是预测共享单车站点时序流量,利用时刻t前各时段的流量及特征去预测t的流量 。
文中比较有意思的地方一方面利用GCN+模型处理时空数据,另一方面是估计置信区间,这个对实际业务指导有比较大的帮助 。

GNN中如何利用置信度和不确定性做文章

文章插图
整个框架分成三个模块:
构建和融合Graph:定义站点间不同关系并融合得到Graph 。
GCN+- 模型:生成包含时间、空间、流量等信息的
MLP:结合和节假日、天气等其他特征去预测站点流量 。
重点说一说置信区间的估计 。
除了预测流量外,还额外输出一个置信区间,比较有实际意义 。
比如有两个站点:学校和小区,学校站点置信区间比较大(用车模式复杂),小区站点置信区间比较小(早出晚归) 。运营人员可以把精力集中在学校这一类置信区间较大站点上;另后续提升算法的方向可以是深挖这类站点的模式;甚至可以用于异常检测,在置信区间以外的是异常的 。
首先定义了模型不确定性由以下三个因素决定
然后通过方法估计前两个因素的方差 ,通过划分出测试集估计得到第三个因素的方差 ,最终得到预测结果的置信区间如下: