← 上级:RL-06.评估环境与工具链
选环境 = 选 观测维度、动作类型、奖励密度、难度曲线。
一、入门(Classic Control)
| 环境 | obs | act | 奖励 | 推荐算法 |
|---|---|---|---|---|
| CartPole-v1 | 4 维 Box | Discrete(2) | 稠密 +1 | DQN, PPO |
| MountainCar-v0 | 2 维 | Discrete(3) | 稀疏 | Q-Learning, PPO + 塑形 |
| Acrobot-v1 | 6 维 | Discrete(3) | 稀疏 -1/步 | PPO |
| LunarLander-v2 | 8 维 | Discrete(4) 或 Box(2) | 混合 | PPO, DQN |
CartPole 目标:连续 500 步平衡;RL-07-01-实战-CartPole到MuJoCo 首站。
二、表格友好
| 环境 | 说明 |
|---|---|
| FrozenLake-v1 | 离散状态,Q 表 |
| Taxi-v3 | 离散,500 状态 |
| CliffWalking | SARSA vs Q-Learning 经典 |
三、Atari
| 项 | 说明 |
|---|---|
| 观测 | 210×160 RGB → 84×84 灰度 ×4 帧 |
| 动作 | 离散(如 4~18) |
| 算法 | DQN 及变体 |
| 预处理 | frame skip=4, max-pool, reward clip |
ALE/Breakout-v5 等需 ROM 许可。
四、MuJoCo 连续控制
| 环境 | 难度 |
|---|---|
| HalfCheetah-v4 | 中 |
| Walker2d-v4 | 中高 |
| Ant-v4 | 高 |
| Humanoid-v4 | 很高 |
算法:SAC、TD3、PPO。动作 Box 连续。
五、选型速查
1 | 离散 + 低维 → Q-Learning / DQN / PPO |
六、小结
- 由易到难:CartPole → LunarLander → MuJoCo / Atari。
- 下一篇:评估指标