← 上级:RL-05.专属数据结构 · 原理:RL-03-04-算法-蒙特卡洛
资格迹(Eligibility Trace)$e(s,a)$ 记录「最近被访问程度」,实现 TD($\lambda$) 多步信用分配。
一、更新规则
每步:
$$
e(s,a) \leftarrow \gamma \lambda , e(s,a) + \mathbf{1}(S_t=s, A_t=a)
$$
$$
Q(s,a) \leftarrow Q(s,a) + \alpha , \delta_t , e(s,a)
$$
对所有 $(s,a)$ 或仅维护非零条目(稀疏迹)。
二、$\lambda$ 含义
| $\lambda$ | 行为 |
|---|---|
| 0 | TD(0) |
| 1 | 接近 MC(配合衰减) |
| 0.9 | 常用折中 |
三、表格实现
1 | E = np.zeros_like(Q) |
SARSA 版用 $Q[s_next, a_next]$ 算 $\delta$。
四、与 GAE 关系
PPO 的 GAE 在轨迹上反向算优势,等价于 函数逼近 + $\lambda$ returns 的工程实现;深度 RL 很少显式存 $e(s,a)$ 全表。
五、小结
- 资格迹 = TD($\lambda$) 的表格存储;深度侧常用 GAE。
- 下一篇:策略输出