RL-03.算法分类与选型

RL-02 给出了 Bellman 方程与价值函数；不同算法本质上是对「如何采样、更新谁（$V/Q/\pi$）、是否需要环境模型」的不同选择。本文提供算法地图与选型轴，便于在写代码前快速定位方法族。

RL 算法分类示意

一、三条分类轴

类型	思路	代表
Model-Free（无模型）	不估计 $P(s’	s,a)$，直接学价值或策略
Model-Based（有模型）	学 $\hat{P},\hat{R}$ 或在模型中规划	Dyna-Q、MCTS+学习、World Models

绝大多数深度 RL 工程实践从 Model-Free 起步；模型方法样本效率可能更高，但模型误差会传播。

类型	数据要求	代表
On-Policy（在策略）	更新用的轨迹必须来自当前策略	SARSA、A2C、PPO
Off-Policy（离策略）	可用旧策略或行为策略的数据	Q-Learning、DQN、DDPG、SAC

Off-Policy 常配合经验回放（见 RL-05.专属数据结构），样本利用更充分，但稳定性需额外设计（目标网络、Double Q 等）。

类型	输出/优化	动作空间	代表
Value-Based（基于价值）	学 $Q(s,a)$，贪心得动作	主要为离散	Q-Learning、DQN
Policy-Based（基于策略）	直接参数化 $\pi_\theta(a	s)$	离散/连续
Actor-Critic	Actor 出动作，Critic 估 $V$ 或 $Q$	离散/连续	A2C、DDPG、SAC

Actor-Critic 可看作「策略梯度 + 价值基线」的结合，是当前连续控制与大动作空间的主流。

RL 算法谱系：表格型 → 深度价值型 → 策略与 Actor-Critic

已有详解：动态规划、Q-Learning；MachineLearn 目录另有迷宫算例。

局限：连续动作上 $\max_{a’} Q(s’,a’)$ 不易直接做。

REINFORCE：$\nabla_\theta J \approx \mathbb{E}[\nabla_\theta \log \pi_\theta(a|s) \cdot G_t]$，方差大。

PPO（Proximal Policy Optimization，PPO）：限制策略更新幅度（clip surrogate），稳定且实现相对简单，离散/连续通用，常作默认基线。

段末注释：近端策略优化（Proximal Policy Optimization，PPO）通过裁剪目标函数限制策略更新步长；后文沿用 PPO。

算法	Model	On/Off	动作	样本效率	实现难度	典型场景
Q-Learning	Free	Off	离散	中（小空间）	低	教学、小迷宫
Dyna-Q	Based	Off	离散	较高（表格）	低	小 MDP + 模型
DQN	Free	Off	离散	中	中	Atari、离散控制
PPO	Free	On	离散/连续	中	中	通用默认
SAC	Free	Off	连续	较高	中高	机器人仿真
TD3	Free	Off	连续	较高	中高	MuJoCo 控制

本系列 RL-03 二级篇 已覆盖从表格到深度的主干算法链（共 17 篇）。下表列出尚未单独成篇、但在工业界/研究中仍常见的主流方向，便于按需延伸阅读。

类别	已收录
规划 / 表格	DP、MC、TD、Q-Learning、SARSA、Dyna-Q
深度价值	DQN、Double/Dueling/PER/Rainbow
策略 / On-Policy	REINFORCE、A2C/A3C、TRPO、PPO
连续 Off-Policy	DDPG、TD3、SAC
Model-Based 概览	Dyna-Q、MCTS、Dreamer、MuZero（简介）
多智能体	MADDPG、QMIX、MAPPO/IPPO（RL-03-15）
模仿 / 逆 RL	BC、DAgger、GAIL、MaxEnt IRL（RL-03-16）
进化策略	OpenAI ES、CMA-ES、PBT（RL-03-17）
探索 / Bandit	$\varepsilon$-greedy、UCB（RL-02-03）、Contextual Bandit（RL-07）

类别	代表算法	典型场景	与本系列关系
离线 RL	CQL、BCQ、IQL、AWAC	日志数据、不能在线探索	推荐/广告；与 Bandit 实战衔接
分布式采样	IMPALA、R2D2、SEED RL	大规模 Atari、低延迟	A3C 已在 Actor-Critic 篇提及
目标条件 / 稀疏奖励	HER、Hindsight Policy	机器人抓取、难探索	与奖励设计相关
层次 RL	Options、HIRO、HAC	长 horizon 任务分解	—
探索增强	RND、Count-based、Go-Explore	稀疏奖励、硬探索	与 RL-02-03 探索篇互补
分布 RL	C51、QR-DQN、IQN	风险敏感、稳定 Q	Rainbow 篇已部分覆盖
序列建模 RL	Decision Transformer、Q-Transformer	离线数据、无 Bootstrapping	离线 RL 新范式
元 RL	MAML-RL、PEARL、RL²	快速适应新任务	—
安全 RL	CPO、RCPO、约束 MDP	机器人、金融	与 TRPO/PPO 约束相关