RL-06-03-评估指标

← 上级:RL-06.评估环境与工具链


一、核心指标

指标 定义
Episode Return $G = \sum_t r_t$
Episode Length 步数
Success Rate 达成目标 episode 比例
Average Return 最近 $N$ 局滑动平均

CartPole:return ≥ 500 视为 solved。


二、样本效率

达到阈值回报所需的 环境步数(sample complexity):

1
steps_to_450 = first step where MA100(return) >= 450

算法对比应在相同步数预算下比较渐近性能。


三、多 seed 报告

1
2
3
4
5
6
seeds = [0, 1, 2, 3, 4]
returns_final = []
for seed in seeds:
ret = train(seed=seed)
returns_final.append(ret)
print(np.mean(returns_final), np.std(returns_final))

论文级:均值 ± 标准误 + 学习曲线 shaded area。


四、评估模式

模式 说明
训练曲线 训练时 $\varepsilon$ 或 stochastic policy
评估策略 deterministic=True, $\varepsilon=0$
固定 episode 如 100 局 eval 取 mean

SB3:model.evaluate(n_eval_episodes=10)


五、可视化

1
2
3
4
import matplotlib.pyplot as plt
window = 50
ma = np.convolve(returns, np.ones(window)/window, mode='valid')
plt.plot(ma); plt.xlabel("episode"); plt.ylabel("return")

TensorBoard:ep_return scalar。


六、小结

-------------本文结束感谢您的阅读-------------