RL-03-14-算法-Model-Based简介

← 上级：RL-03.算法分类与选型 · 对照：Model-Free 各篇

Model-Free 方法（Q-Learning、DQN、PPO 等）不显式学习 $P(s’|s,a)$。Model-Based RL 则学习或利用环境模型 $\hat{P}, \hat{R}$，在模型内规划或生成虚拟数据，往往样本效率更高，但受模型误差制约。

段末注释：基于模型的强化学习（Model-Based Reinforcement Learning）指显式学习环境动力学模型并用于决策的 RL 范式；后文简称 Model-Based。

一、基本循环

1
2
3

真实交互 → 更新模型 $\hat{P}, \hat{R}$
         → 在模型中 rollout / 规划 → 改进策略
         → 再交互验证

优势	风险
少样本、可「想象」轨迹	模型错 → 策略在假环境过拟合
可解释、可安全检查	高维连续动力学难学准

二、经典：Dyna-Q

表格 Q-Learning + 少量真实步 + 模型模拟额外更新：每步真实交互后，用学到的模型生成 $n$ 条虚构转移继续 Q 更新。

完整算法、伪代码与 Dyna-Q+ 见专篇 RL-03-13-算法-Dyna-Q。

三、MCTS + 学习（博弈）

蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）在已知或可模拟环境中展开决策树：

Selection：按 UCB 等选叶节点
Expansion：扩展子节点
Simulation： rollout 估回报
Backpropagation：回传更新统计

AlphaGo 类系统：策略网络（选边）+ 价值网络（估局面）+ MCTS（搜索），RL 与搜索结合，非纯 Model-Free。

段末注释：蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）通过树搜索与随机模拟评估动作；后文沿用 MCTS。

四、学习动力学模型（Deep Model-Based）

方向	思路
World Models	学 VAE 压缩观测 + RNN 预测下一隐状态，Agent 在隐空间规划
PETS / MBPO	学概率动力学 ensemble，在模型中采样轨迹训策略
Dreamer	隐空间想象 rollout，直接优化 actor-critic
MuZero	学隐式模型 + MCTS，无真实环境模型也可规划

五、Model-Based vs Model-Free

	Model-Free	Model-Based
样本效率	通常较低	通常较高
实现复杂度	相对低（PPO/SAC 成熟）	模型 + 规划，工程量大
误差来源	函数逼近、Bootstrap	+ 模型偏差
典型应用	游戏、机器人（仿真多）	样本贵、可建准模拟器

实践建议：工程入门用 PPO/SAC；若仿真器可信且样本极贵，再调研 MBPO / Dreamer 等。

六、与 AlphaGo / 机器人

系统	模型角色
AlphaGo	完美规则模拟 + MCTS + 神经网络
机器人 Sim2Real	物理仿真器作「模型」，RL 在 sim 训练
离线 RL	用数据学动力学 + 保守策略（与 Model-Based 交叉）

应用见 RL-07.应用实战。

七、延伸阅读

Sutton：Dyna 架构
Silver et al.：AlphaGo / MuZero
Hafner et al.：Dreamer 系列

八、小结

Model-Based = 学 $\hat{P},\hat{R}$ + 规划/想象数据。
Dyna-Q 表格入门：RL-03-13-算法-Dyna-Q；深度时代看 World Models / Dreamer / MuZero。
与 Model-Free 互补：样本效率 vs 实现稳健性。
回到 Model-Free 索引：RL-03.算法分类与选型