📃Paper: Recipe for a General, Powerful, Scalable Graph Transformer
🔔Github: https://github.com/rampasek/GraphGPS
GraphGPS 的主要贡献如下:
1-Weisfeiler-Leman test (1-WL) 是一种图同构测试方法,属于图同构判定的一系列Weisfeiler-Leman(WL)算法中最基础的形式。该方法由Weisfeiler 和 Leman 于1968年提出,最初用于图的着色问题,后来发展成为检验两个图是否同构的有力工具。
1-WL 测试的基本思想是通过顶点的邻居信息来更新顶点的标签(或颜色),从而逐步区分不同的顶点和图结构。如果设 是节点 的标签,那么它的第 步更新可以写作:
如果两个图经过1-WL算法,通过不断迭代到停止条件(通常是标签值不再变化)后,这两个图对应的所有节点的标签相同,则两个图可能是同构的(但不是充分条件)。
不难发现,这与一个 1-hop 的 MPNNs (的聚合部分)是很类似的。
虽然1-WL测试在很多情况下能够有效地区分不同的图,但它也存在一些局限性:
MPNNs 实际上也保留了这样的特点。
如上图(a)所示,当我们使用 1-WL来处理两个明显异构(non-isomorphic) 的 环形跳跃连接(Circular Skip Link, CSL)图 和 时,二者均把它们视为是同构图了(MPNN也是同样的结果)。而如果采用 Global PE 或 Local SE 来进行测试,则可以成功把二者区分开来(节点的颜色不同)。
同样地,如(b)所示,考虑双环结构的十氢化萘分子(Decalin molecule),在图中节点a和节点b是同构的,节点c和节点d是同构的。特别地,如果任务是识别节点集 和 之间的潜在链接时,1-WL/MPNN 甚至 Local SE 的方案就失效了,此时仅有 Global PE 能够胜任该任务。
最终作者得到一个重要结论:如果不将位置编码 (positional encoding, PE) 和 结构编码 (structural encoding, SE) 用于增强和修改MPNNs的学习任务,那么MPNNs将不能保证能获得足够好的信息,从而减弱了其学习能力。
位置编码 (positional encoding, PE) 和 结构编码 (structural encoding, SE) 是驱动 Graph Transformer 能够高效运行和应用的重要因素。因此,更好地理解和组织它们有助于构建更模块化的体系结构。
如上表所示,GraphGPS 具体将 PE/SE 分为 局部local, 全局global 和 关系型relative 三种类型。对它们的中文描述可参见:GraphGPS论文解读 - 知乎
在以往的工作中,参考了计算机视觉领域中,在 Transformer层之前堆叠多个 CNN 层的做法,例如GraphTrans,会首先堆叠几层MPNN,将它们置于Transformer层之前,从而获得图信息的表达。
然而,受限于传统 MPNN 过平滑、过挤压,以及和 1-WL 一样的信息损失问题,即使是加入了 PE/SE 机制也很难缓解这系列问题带来的瓶颈。为此,GraphGPS 给出的解决方案是融合 MPNN 和 Transformer 而不是单纯的拼接它们。一个 GPS Layer 的结构如下图所示:
其中, 表示第 层的节点特征,一边通过全连接的全局注意力层(也就是任意两两节点都有一个虚边),另一边和第 层的实边(即真实的边特征) 一起通过局部的 MPNN 层,两边都使用残差连接的方式,然后合并起来过一个用 为激活函数的 2-layer MLP 最终得到下一层的节点特征表示。
用户可以 PE/SE、Transformer、MPNN 以及最后预测头方案选取的不同,而遵循以上框架得到不同的模型,这是 GraphGPS 模块化(modularity)的体现。
规模可变性(Scalability) 是通过将模型的计算复杂度降低到 来实现的,其中 和 分别是节点和边的数量(忽略PE/SE阶段比如分解拉普拉斯矩阵等操作的计算开销)。其中,通过将PE/SE限制在真实节点和边上,并在global attention层不让 Real Edge 纳入计算,还可以避免完整的平方级的注意力矩阵计算,使用Linear Transformer 以降低节点计算的复杂度为;而 MPNN 则是。
作者对不同的Transformer层和MPNN层进行了消融实验,结果表明Transformer结构对提升效果有明显作用,其中Linear Transformer结构(Performer、BigBird)也均有提升效果,但是和普通的 的 transformer 还有一定差距。另外,不同的MPNN结构(GINE、GateGCN、PNA等)对实验结果也有明显的提升。
另一方面,作者还评估了各种PE/SE方案的效果,发现它们通常有利于下游任务。但是不同编码的方式的效果非常依赖于数据集,随机游走结构编码(RWSE)更有利于分子数据,而拉普拉斯特征向量编码(LapPE)更有利于图像超像素。然而,使用带有DeepSets编码的SignNet作为处理LapPE的一种改进方法,似乎在多个任务中都有提升效果。