RL-06-03-评估指标

一、核心指标

指标	定义
Episode Return	$G = \sum_t r_t$
Episode Length	步数
Success Rate	达成目标 episode 比例
Average Return	最近 $N$ 局滑动平均

CartPole：return ≥ 500 视为 solved。

二、样本效率

达到阈值回报所需的 环境步数（sample complexity）：

1	steps_to_450 = first step where MA100(return) >= 450

算法对比应在相同步数预算下比较渐近性能。

三、多 seed 报告

seeds = [0, 1, 2, 3, 4]
returns_final = []
for seed in seeds:
    ret = train(seed=seed)
    returns_final.append(ret)
print(np.mean(returns_final), np.std(returns_final))

论文级：均值 ± 标准误 + 学习曲线 shaded area。

四、评估模式

模式	说明
训练曲线	训练时 $\varepsilon$ 或 stochastic policy
评估策略	`deterministic=True`, $\varepsilon=0$
固定 episode	如 100 局 eval 取 mean

SB3：model.evaluate(n_eval_episodes=10)

五、可视化

import matplotlib.pyplot as plt
window = 50
ma = np.convolve(returns, np.ones(window)/window, mode='valid')
plt.plot(ma); plt.xlabel("episode"); plt.ylabel("return")

TensorBoard：ep_return scalar。

六、小结

报告 return 曲线 + 多 seed + 样本效率。
下一篇：Stable-Baselines3 与生态