← 上级:RL-06.评估环境与工具链
一、核心指标
| 指标 | 定义 |
|---|---|
| Episode Return | $G = \sum_t r_t$ |
| Episode Length | 步数 |
| Success Rate | 达成目标 episode 比例 |
| Average Return | 最近 $N$ 局滑动平均 |
CartPole:return ≥ 500 视为 solved。
二、样本效率
达到阈值回报所需的 环境步数(sample complexity):
1 | steps_to_450 = first step where MA100(return) >= 450 |
算法对比应在相同步数预算下比较渐近性能。
三、多 seed 报告
1 | seeds = [0, 1, 2, 3, 4] |
论文级:均值 ± 标准误 + 学习曲线 shaded area。
四、评估模式
| 模式 | 说明 |
|---|---|
| 训练曲线 | 训练时 $\varepsilon$ 或 stochastic policy |
| 评估策略 | deterministic=True, $\varepsilon=0$ |
| 固定 episode | 如 100 局 eval 取 mean |
SB3:model.evaluate(n_eval_episodes=10)
五、可视化
1 | import matplotlib.pyplot as plt |
TensorBoard:ep_return scalar。
六、小结
- 报告 return 曲线 + 多 seed + 样本效率。
- 下一篇:Stable-Baselines3 与生态