← 上级:RL-03.算法分类与选型 · 对照:Model-Free 各篇
Model-Free 方法(Q-Learning、DQN、PPO 等)不显式学习 $P(s’|s,a)$。Model-Based RL 则学习或利用环境模型 $\hat{P}, \hat{R}$,在模型内规划或生成虚拟数据,往往样本效率更高,但受模型误差制约。
段末注释:基于模型的强化学习(Model-Based Reinforcement Learning)指显式学习环境动力学模型并用于决策的 RL 范式;后文简称 Model-Based。
一、基本循环
1 | 真实交互 → 更新模型 $\hat{P}, \hat{R}$ |
| 优势 | 风险 |
|---|---|
| 少样本、可「想象」轨迹 | 模型错 → 策略在假环境过拟合 |
| 可解释、可安全检查 | 高维连续动力学难学准 |
二、经典:Dyna-Q
表格 Q-Learning + 少量真实步 + 模型模拟额外更新:每步真实交互后,用学到的模型生成 $n$ 条虚构转移继续 Q 更新。
完整算法、伪代码与 Dyna-Q+ 见专篇 RL-03-13-算法-Dyna-Q。
三、MCTS + 学习(博弈)
蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)在已知或可模拟环境中展开决策树:
- Selection:按 UCB 等选叶节点
- Expansion:扩展子节点
- Simulation: rollout 估回报
- Backpropagation:回传更新统计
AlphaGo 类系统:策略网络(选边)+ 价值网络(估局面)+ MCTS(搜索),RL 与搜索结合,非纯 Model-Free。
段末注释:蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)通过树搜索与随机模拟评估动作;后文沿用 MCTS。
四、学习动力学模型(Deep Model-Based)
| 方向 | 思路 |
|---|---|
| World Models | 学 VAE 压缩观测 + RNN 预测下一隐状态,Agent 在隐空间规划 |
| PETS / MBPO | 学概率动力学 ensemble,在模型中采样轨迹训策略 |
| Dreamer | 隐空间想象 rollout,直接优化 actor-critic |
| MuZero | 学隐式模型 + MCTS,无真实环境模型也可规划 |
五、Model-Based vs Model-Free
| Model-Free | Model-Based | |
|---|---|---|
| 样本效率 | 通常较低 | 通常较高 |
| 实现复杂度 | 相对低(PPO/SAC 成熟) | 模型 + 规划,工程量大 |
| 误差来源 | 函数逼近、Bootstrap | + 模型偏差 |
| 典型应用 | 游戏、机器人(仿真多) | 样本贵、可建准模拟器 |
实践建议:工程入门用 PPO/SAC;若仿真器可信且样本极贵,再调研 MBPO / Dreamer 等。
六、与 AlphaGo / 机器人
| 系统 | 模型角色 |
|---|---|
| AlphaGo | 完美规则模拟 + MCTS + 神经网络 |
| 机器人 Sim2Real | 物理仿真器作「模型」,RL 在 sim 训练 |
| 离线 RL | 用数据学动力学 + 保守策略(与 Model-Based 交叉) |
应用见 RL-07.应用实战。
七、延伸阅读
- Sutton:Dyna 架构
- Silver et al.:AlphaGo / MuZero
- Hafner et al.:Dreamer 系列
八、小结
- Model-Based = 学 $\hat{P},\hat{R}$ + 规划/想象数据。
- Dyna-Q 表格入门:RL-03-13-算法-Dyna-Q;深度时代看 World Models / Dreamer / MuZero。
- 与 Model-Free 互补:样本效率 vs 实现稳健性。
- 回到 Model-Free 索引:RL-03.算法分类与选型