阅读 5003.大模型-架构 或 DeepSeek 概述 时,常会碰到一笔带过的术语——例如「专家坍缩」「过平滑」「归纳偏置」。架构文侧重系统与公式,本系列则专注单个概念:用短篇幅讲清「是什么、为什么、何时遇到、怎么办、和相近词有何不同」。
段末注释:本系列与「架构/算法长文」互补,不重复完整推导;需要公式与实现细节时请回到对应专题。
插图约定:科普动漫风示意,位于 5003.LLM概念解析/;每篇结构尽量统一,便于检索与后续追加。
1. 每篇固定结构
| 章节 | 内容 |
|---|---|
| 直观解释 | 比喻 + 最小必要定义 |
| 背后原因 | 机制/数学/训练动力学 |
| 出现场景 | 何时需要警惕 |
| 解决方案 | 工业界常见做法与权衡 |
| 近似概念对照 | 易混淆术语异同 |
| 延伸阅读 | 本目录架构文 + 论文 |
2. 已收录概念
| 编号 | 概念 | 文件 | 关联架构文 |
|---|---|---|---|
| 01 | 专家坍缩(Expert Collapse) | 01.专家坍缩 | DeepSeek-0、范式综述 §MoE |
| 02 | 过平滑(Oversmoothing) | 02.过平滑 | MPNN-0、范式综述 §GNN |
3. 待补充(规划)
以下概念可在阅读主线文档时按需追加为本系列条目:
- 模式坍缩(Mode Collapse)
过平滑(Oversmoothing,GNN)→ 已收录 02- 过挤压(Oversquashing)
- 归纳偏置(Inductive Bias)
- KV Cache / 上下文长度外推
- 蒸馏(Distillation)vs 量化(Quantization)
欢迎在实际项目中遇到「查架构文仍不懂」的词条时,指定编号与概念名继续扩展。
4. 与 Diffusion 数学补充的关系
| 系列 | 侧重 |
|---|---|
| LLM 概念解析(本系列) | 通用 LLM/MoE/训练 术语,短文 |
| Diffusion-Math-0 | 扩散模型专用概率论基础 |
| Diffusion-Example-0 | 连续 DDPM 2 维手算 |
| Diffusion-Example-1 | 蛋白序列 MASK 离散扩散手算 |
| 大模型-架构-* | 完整系统、公式与选型 |
三者可交叉引用,互不替代;Example-0/1 为可手算数值例题。