← 上级:RL-05.专属数据结构 · 实现:RL-04-04-DQN实现
Replay Buffer 打破时序相关,支撑 DQN/DDPG/SAC 等 Off-Policy 算法。
一、deque 版(教学)
1 | from collections import deque |
二、预分配环形数组(高效)
1 | class ReplayBuffer: |
FIFO:ptr 循环覆盖最旧数据。
三、使用注意
| 点 | 说明 |
|---|---|
| warmup | size >= batch 再训练 |
| 容量 | 太小遗忘早、太大占内存 |
| dtype | 与网络 float32 一致 |
四、n-step / 帧栈
- n-step:存 $n$ 步累积 $R$ 与 $s_{t+n}$
- FrameStack:
obs通道维堆叠 4 帧
五、小结
- Replay = 环形队列 + 均匀随机 sample。
- 下一篇:Prioritized Replay