RL-06-02-经典基准环境

发表于 2026-05-28 | 分类于开发，强化学习

CartPole、MountainCar、LunarLander、Atari、MuJoCo 环境特点与算法选型对照。

← 上级：RL-06.评估环境与工具链

选环境 = 选 观测维度、动作类型、奖励密度、难度曲线。

一、入门（Classic Control）

环境	obs	act	奖励	推荐算法
CartPole-v1	4 维 Box	Discrete(2)	稠密 +1	DQN, PPO
MountainCar-v0	2 维	Discrete(3)	稀疏	Q-Learning, PPO + 塑形
Acrobot-v1	6 维	Discrete(3)	稀疏 -1/步	PPO
LunarLander-v2	8 维	Discrete(4) 或 Box(2)	混合	PPO, DQN

CartPole 目标：连续 500 步平衡；RL-07-01-实战-CartPole到MuJoCo 首站。

二、表格友好

环境	说明
FrozenLake-v1	离散状态，Q 表
Taxi-v3	离散，500 状态
CliffWalking	SARSA vs Q-Learning 经典

三、Atari

项	说明
观测	210×160 RGB → 84×84 灰度 ×4 帧
动作	离散（如 4~18）
算法	DQN 及变体
预处理	frame skip=4, max-pool, reward clip

ALE/Breakout-v5 等需 ROM 许可。

四、MuJoCo 连续控制

环境	难度
HalfCheetah-v4	中
Walker2d-v4	中高
Ant-v4	高
Humanoid-v4	很高

算法：SAC、TD3、PPO。动作 Box 连续。

五、选型速查

离散 + 低维 → Q-Learning / DQN / PPO
离散 + 图像 → DQN / PPO(CNN)
连续 → PPO / SAC / TD3
教学 → FrozenLake, CartPole

六、小结

由易到难：CartPole → LunarLander → MuJoCo / Atari。
下一篇：评估指标

-------------本文结束感谢您的阅读-------------