Graph Attention Networks——《论文阅读》 _attention

摘要
堆叠基本的图自注意力层，形成深度学习网络。基本的图自注意力层能够为中心结点（样本）的邻域结点（样本）分配不同的权重，表示邻域结点对中心样本的不同重要性，在空域内可以理解为结构信息等，加权和得到中心样本的新表示。
原文：
算法

文章插图
1：Input : node的集合h = [ h 1 , h 2 , ? &; , h N ] h i ∈ R F ( F 表示特征维度 ) h = [h_1,h_2,\cdots,h_N] \qquad h_i\in R^F(F表示特征维度) h=[h1?,h2?,?,hN?]hi?∈RF(F表示特征维度)2：为了能够让特征更具表达能力，采用了线性变换先对原始特征进行处理 h ′ = [ h 1 ′ , h 2 ′ , ? &; , h N ′ ] h i ′ ∈ R F ′ h^{'} = [h_{1}^{'},h_{2}^{'},\cdots,h_{N}^{'}] \qquad h_{i}^{'}\in R^{F'} h′=[h1′?,h2′?,?,hN′?]hi′?∈RF′ h i ′ = W h i W ∈ R F ′ × F h_{i}^{'} = Wh_i \qquad W\in R^{F^{'}\times F} hi′?=Whi?W∈RF′×F 3: 任意两个样本之间注意力系数的计算公式 e i j = a ( W h i , W h j ) a 表示共享注意力机制 e_{ij} = a(Wh_i ,Wh_j ) \qquad a表示共享注意力机制 eij?=a(Whi?,Whj?)a表示共享注意力机制4：一般来说，通过注意力机制可以计算任意两个样本的关系，使一个样本用其他所有样本来表示，但是第一，基于空间相似假设，一个样本与一定范围内的样本关系较密切，第二，样本较多的时候，计算量非常大。——因此，对于一个样本xi来说只利用邻域内的样本计算注意力系数和新的表示。
这篇文章的问题：1，邻域的计算 2.邻域的取值 α i j = s o f t m a x j ( e i j ) = e e i j ∑ k ∈ N i e e i k j ∈ N i \{ij}=(e_{ij}) = \frac{e^{e_{ij}}}{\sum_{k\in N_i}e^{e_{ik}}}\quad j\in N_i αij?=?(eij?)=∑k∈Ni??eeik?eeij??j∈Ni?利用样本邻域计算新的表示公式如上，为方便比较计算，使用函数进行归一化处理。
5：文章利用权重向量参数化的单层前馈神经网络表示注意力机制a，并使用激活结点，所以计算公式具体表示为： α i j = e L e a k y R u L U ( a T [ W h i ∣ ∣ W h j ] ) ∑ k ∈ N i e L e a k y R u L U ( a T [ W h i ∣ ∣ W h k ] ) a ∈ R 2 F ′ ∣ ∣ 表示 c o n c a t \{ij} = \frac{e^{(a^T[Wh_i||Wh_j])}}{\sum_{k\in N_i}e^{(a^T[Wh_i||Wh_k])}} \qquad a \in R^{2F'}\quad || 表示 αij?=∑k∈Ni??(aT[Whi?∣∣Whk?])(aT[Whi?∣∣Whj?])?a∈R2F′∣∣表示
_ 图1左表示特征转换，注意力机制，激活，归一化生成两个样本之间注意力系数的过程。右，表示用结点邻域的以不同注意力机制表示样本结点的过程。_
6：每个结点根据其邻域结点及邻域结点的注意力权重系数计算其新的表示： h ~ i ′ = σ ( ∑ j ∈ N i α i j W h j ) \{h}'_{i} = \sigma(\sum_{j\in N_i}\{ij}Wh_j) hi′?=σ(j∈Ni?∑?αij?Whj?)7:图右，不同的箭头表示不同的注意力机制，在非最后一层多头注意力以形式结合 h ~ i ′ = ∥ k = 1 K σ ( ∑ j ∈ N i α i j k W k h j ) \{h}'_{i} =\|_{k=1}^{K} \sigma(\sum_{j\in N_i}\{ij}^{k}W^{k}h_j) hi′?=∥k=1K?σ(j∈Ni?∑?αijk?Wkhj?)8:最后一层，计算各个注意力机制下的均值： h ~ i ′ = σ ( 1 K ∑ k = 1 K ∑ j ∈ N i α i j k W k h j ) \{h}'_{i} = \sigma(\frac{1}{K}\sum_{k=1}^{K}\sum_{j\in N_i}\{ij}^{k}W^{k}h_j) hi′?=σ(K1?k=1∑K?j∈Ni?∑?αijk?Wkhj?)
【Graph Attention Networks——《论文阅读》】实验实现的过程没有邻域的计算，根据数据生成图谱是事先数据处理完成的，无论是训练，交叉验证，还是测试，都是一张完整的图和训练数据，标签数据也是完整的，只是在不同的阶段只有那一部分为真实标签，其余全为0，也就是半监督学习，之前觉得: Semi- Few-shotforType 还有Non-Local实质一样的，但是具体的实现及灵活性有待商榷。