5003.LLM概念解析-02.过平滑

过平滑(Oversmoothing)图神经网络(Graph Neural Network,GNN) / 消息传递神经网络(Message Passing Neural Network,MPNN) 堆叠层数过多时出现的一类表示退化:经多轮「邻居聚合—更新」后,不同节点的嵌入向量趋于相似,图上的区分度(discriminability) 下降,节点分类、图分类、分子性质预测等下游任务性能变差。直观上说,所有节点被「抹成同一灰色」——并非梯度消失那么简单,而是消息传递算子反复作用带来的低通滤波效应。

段末注释:GNN 在图结构数据上通过邻居交换信息学习表示;MPNN 将其抽象为消息—聚合—更新三步;嵌入(embedding) 即节点/图的连续向量表示。

系列导读5003.LLM概念解析-0.系列导读
关联架构MPNN-0 §6范式综述 §GNN

插图5003.LLM概念解析/concept-fig04~06*.png


1. 直观解释

1.1 比喻

把图上的消息传递想象成颜料在清水里扩散

  • 1–2 层:每个节点只与直接邻居混色,红、蓝、绿节点仍可分辨——学到局部化学环境、一级邻居类型。
  • 很多层以后:颜色经全图多跳路径不断平均,最终整图节点变成同一色调——模型无法回答「这个碳原子与那个氮原子有何不同」。

这与扩散模型里的「前向加噪」不同:过平滑是 GNN 层数过深 导致的表征坍缩,不是生成式噪声日程。

1.2 最小定义

设第 (t) 层节点 (v) 的表示为 (h_v^{(t)})。理想情况下,对非同构或不同属性的节点 (u, v),(|h_u^{(t)} - h_v^{(t)}|) 应反映结构/特征差异。过平滑指存在层数 (T),当 (t \geq T) 时:

[
\frac{1}{|V|}\sum_{v \in V} h_v^{(t)} \approx \bar{h}, \quad \text{且各 } h_v^{(t)} \text{ 两两余弦相似度} \to 1.
]

即:节点表示收敛到几乎相同的子空间,失去类间可分性

图 1 浅层 GNN 节点可区分 vs 深层过平滑后节点表示趋同


2. 背后的原因

2.1 重复邻域平均 = 图上的低通滤波

多数 GNN(GCNGraphSAGE 均值聚合)一层更新近似:

[
h_v^{(t+1)} = \sigma\Big(W^{(t)} \cdot \mathrm{AGG}_{u \in \mathcal{N}(v)} h_u^{(t)}\Big).
]

无自环或弱自环时,这类似对节点信号做拉普拉斯平滑——高频(节点间差异大的)分量被抑制,低频(全局常数/缓慢变化)分量保留。层数 (t\uparrow) 等价于多次应用低通滤波器,终态趋近拉普拉斯主特征向量方向,节点特征无法区分

2.2 与图热扩散的类比

连续图上热方程 (\frac{\partial u}{\partial t} = \Delta u) 随时间抹平温度差。离散消息传递在连通图上具有类似动力学:(t) 层 (\approx) 扩散 (t) 步,全图节点趋于平衡态

2.3 层数 vs 图直径 / 连通度

  • 直径小、连通密的图(如小分子、高度社交图):过平滑更早出现,有时 4–8 层已明显。
  • 直径大、稀疏图:需更多层才平滑,但此时可能先遇到 过挤压(oversquashing)(远距离信息传不过来)——二者常此消彼长

2.4 同质性(Homophily)加剧

若相连节点本已相似(「物以类聚」),聚合进一步放大相似、消减差异;分子图中同一官能团内原子本身特征接近,深层 GNN 更易「糊成一片」。

图 2 过平滑成因:重复平均、低通滤波、热扩散与层数–拓扑关系


3. 出现的场景

场景 典型图 表现 如何察觉
分子性质预测 原子为节点、键为边 深 GNN 验证集先升后降 扫层数 (T=2,4,8,16) 画 learning curve
蛋白质接触图 / 口袋 残基或原子图 结合位点 vs 非位点节点难区分 可视化节点 embedding(t-SNE 聚成一团)
知识图谱嵌入 实体关系图 深层 MPNN link prediction 退化 对比浅层 vs 深层 hits@K
单细胞 / 空间转录组 kNN 细胞图 聚类边界模糊 与浅层 GCN baseline 对比
读 MPNN/GNN 论文 「deeper is not always better」 MPNN-0 §6

LLM 主栈通常不直接谈 oversmoothing——Transformer 全连接注意力不是局部拉普拉斯平滑。但若做 分子 + GNNAlphaFold 式 pair track知识图谱 + LLM,仍会碰到;亦勿与 MoE 专家坍缩混淆(见 §5)。


4. 解决方案

4.1 残差连接与初始连接(Residual / Initial Connection)

做法:(h_v^{(t+1)} = h_v^{(t)} + \Delta h_v^{(t)}) 或 concat 初始特征 (x_v)。
原理:保留节点自身信息与浅层信号,减缓被邻居平均掉。
代表GCNII、许多工程实现默认加 residual。

4.2 Jumping Knowledge(JK)

做法:不只用最后一层 (h^{(T)}),而拼接或注意力融合 ({h^{(1)},\ldots,h^{(T)}}) 再读出。
原理:浅层保留局部、高层保留全局,避免「只取已平滑的最深层」。

4.3 控制深度 + 早停层数

做法:分子任务常 3–5 层 即够;用验证集选 (T)。
优点:最简单;SchNetDimeNet 等化学模型层数受限 partly 因此。

4.4 归一化与去平滑正则(PairNorm、GroupNorm 等)

做法PairNorm 等显式约束节点间平均距离,对抗表示坍缩。
场景:必须较深 GNN 时的训练稳定手段。

4.5 DropEdge / 随机删边

做法:训练时随机 drop 边,降低有效连通度,减缓扩散速度。
权衡:正则化效果;推理时用完整图。

4.6 注意力与自适应聚合(GAT)

做法:邻居权重由数据学习,而非固定均匀平均。
效果:不能完全消除过平滑,但可减轻「无脑平均」;极深仍可能平滑。

4.7 虚拟节点 / 全局读出(Virtual Node, Set2Set)

做法:加超级节点连所有节点,或图级 pooling 早提取全局信息,节点层不必极深。
生物例子:分子图分类常用 Set2Set + 浅层 MPNN。

4.8 图重写(Rewiring)、长程边

做法:加 virtual edgespositional encodingGraph Transformers 跳局部瓶颈——更常解决 oversquashing,但与过平滑一并考虑图深度设计。

4.9 与 Transformer 混合

做法:浅 GNN 提取局部几何 + Transformer 做长程(分子 Graphormer、蛋白 EGNN + attention)。
直觉:把「易过平滑的深局部堆叠」换成「浅 GNN + 全局注意力」。

图 3 过平滑缓解方案与近似概念对照


5. 近似概念的异同

概念 英文 对象 核心问题 与过平滑关系
过平滑 Oversmoothing GNN 节点表示 层数↑ → 节点 embedding 趋同 本文主题
过挤压 Oversquashing GNN 信息流动 瓶颈处远程依赖无法传入 互补问题:浅层传不远,深层却平滑;见 MPNN-0 §6
欠达(Underreaching) Underreaching GNN 感受野 层数不足,覆盖不了远距离 与过平滑相反方向(太浅 vs 太深)
表示坍缩 Representation Collapse 对比学习 所有样本 embedding 趋同 机制不同(InfoNCE/增广),非图专属
专家坍缩 Expert Collapse MoE 路由 少数专家垄断 token 发生在 router,见 概念解析-01
模式坍缩 Mode Collapse GAN 生成 输出多样性丧失 对抗训练 pathology
Transformer 过平滑 部分 ViT/长序列 文献 token 表示趋同 名词借用,机制是自注意力深度;与 GNN 理论不完全相同

记忆口诀

  • 太深 + 图 + 节点长得一样过平滑
  • 太远 + 图 + 传不过去过挤压
  • 太浅 + 图 + 够不着欠达
  • MoE + 专家闲着专家坍缩

6. 生物信息学读者需要关心吗?

需要,若你的 pipeline 含 GNN/MPNN

  • 小分子/QM9/Drug 性质:SchNet、MPNN、EGNN 层数不宜盲目加深;
  • 蛋白界面、接触图:深层 GCN 可能抹平结合位点信号;
  • 知识图谱 + 实体链接:深 MPNN 需 JK/残差。

通常不需要,若仅使用 ESM / DNABERT / LLM API 而不建图模型——过平滑不在 Transformer 主线词汇里。

实践建议:从 (T=3\sim 5) 起扫;监控验证集与 节点 embedding 方差;深模型优先加 residual + JK,而非单纯加层。


7. 小结

维度 要点
是什么 深层消息传递使节点表示趋同,区分度下降
为什么 重复邻域平均 ≈ 图低通滤波 / 热扩散收敛
何时 深 GNN、密图、分子/知识图谱、读 MPNN 文献时
怎么办 浅层、残差、JK、PairNorm、DropEdge、虚拟节点、GNN+Transformer
别混淆 过挤压、欠达、表示坍缩、专家坍缩

段末注释:WL 测试(Weisfeiler–Lehman)常用来刻画 GNN 表达力上界;过平滑是优化/深度层面的训练现象,与 WL 表达力正交。


参考与延伸阅读

  • Li et al., Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning(过平滑早期分析).
  • Xu et al., Representation Learning on Graphs with Jumping Knowledge NetworksJK).
  • Chen et al., Simple and Deep Graph Convolutional NetworksGCNII 残差).
  • Topping et al., Understanding Over-Squashing and Bottlenecks on Graphs过挤压).
  • 本目录:MPNN-0概念解析-01 专家坍缩.
-------------本文结束感谢您的阅读-------------