← 上级:RL-02.原理与数学基础 · 算法:RL-03-02-算法-Q-Learning
RL 的奖励信号稀疏且延迟,Agent 必须在尝试未知动作(探索)与执行当前最优(利用)之间权衡。本文从多臂老虎机(Multi-Armed Bandit,MAB)出发,介绍常用探索策略及在 Q-Learning 中的用法。
段末注释:多臂老虎机(Multi-Armed Bandit,MAB)指每步在多个动作中选一个、仅观测该臂奖励的简化 RL 问题;后文沿用 MAB。

一、为何必须探索
仅选 $\arg\max_a Q(s,a)$ 时:
- 未试过的动作 $Q(s,a)$ 可能仍为初值 0,永不被选中;
- 环境非平稳时,旧最优可能已失效。
探索保证每个 $(s,a)$ 或每个 bandit 臂有足够样本,使估计收敛到真值或适应变化。
二、多臂老虎机(无状态)
$K$ 个臂,选臂 $a$ 得奖励 $R \sim \mathcal{D}_a$,目标最大化累积奖励。
| 设定 | 说明 |
|---|---|
| Regret | 与始终选最优臂的奖励差 |
| 平稳 | $\mathcal{D}_a$ 不随时间变 |
| Contextual | 加入上下文 $x$,即 Contextual Bandit |
MAB 是 RL 的「单状态」特例;推荐系统常用 Contextual Bandit 做快速 A/B,见 RL-07.应用实战。
三、$\varepsilon$-greedy
$$
a = \begin{cases}
\text{Uniform}(A) & \text{概率 } \varepsilon \
\arg\max_a Q(s,a) & \text{概率 } 1-\varepsilon
\end{cases}
$$
| 优点 | 缺点 |
|---|---|
| 实现极简 | 探索与利用不区分不确定性 |
| Q-Learning 标配 | 线性 $\varepsilon$ 可能探索过多或过早利用 |
3.1 衰减 Schedule
| 策略 | 形式 |
|---|---|
| 线性 | $\varepsilon_t = \max(\varepsilon_{\min}, \varepsilon_0 - kt)$ |
| 指数 | $\varepsilon_t = \varepsilon_{\min} + (\varepsilon_0 - \varepsilon_{\min}) e^{-\lambda t}$ |
| 分阶段 | 前 10% 步 $\varepsilon=1$,再衰减 |
DQN 论文:前 $10^6$ 步从 1.0 线性降至 0.1。
四、Softmax / Boltzmann 探索
按 $Q$ 值比例采样:
$$
\pi(a|s) = \frac{\exp(Q(s,a)/\tau)}{\sum_{a’} \exp(Q(s,a’)/\tau)}
$$
温度 $\tau$:
- $\tau \to 0$:接近贪心
- $\tau \to \infty$:均匀随机
比 $\varepsilon$-greedy 更「平滑」地偏向高 $Q$ 动作;SAC 等用熵正则化是连续/随机策略侧的延伸。
五、UCB(Upper Confidence Bound)
每臂 $a$ 维护估计 $\hat{Q}_a$ 与次数 $N_a$,选:
$$
a = \arg\max_a \left( \hat{Q}_a + c \sqrt{\frac{\ln t}{N_a}} \right)
$$
乐观面对不确定性:尝试次数 $N_a$ 小的臂 bonus 大,自动探索。
| 特点 | 说明 |
|---|---|
| 理论 Regret 界 | 平稳 bandit 下对数级 |
| 状态扩展 | 到 MDP 需每 $(s,a)$ 计数,状态大时不适用 |
六、Thompson Sampling(简述)
为每臂维护奖励分布的后验(如 Beta),每步从后验采样一值再 $\arg\max$,自然平衡探索与利用。贝叶斯 bandit 常用,工程上 Contextual Bandit 也常见。
七、在 Q-Learning / DQN 中的组合
| 组件 | 探索角色 |
|---|---|
| 行为策略 | $\varepsilon$-greedy 或 Noisy Net |
| 学习目标 | Q-Learning 仍对 $\max Q(s’,a’)$(Off-Policy) |
| 衰减 | 训练后期减小 $\varepsilon$,提高利用 |
注意:SARSA 的 On-Policy 更新与 $\varepsilon$-greedy 行为一致,悬崖行走等例中更保守。
八、探索不足 vs 过度
| 现象 | 可能原因 | 调整 |
|---|---|---|
| 回报平台早、策略次优 | 探索不足 | 提高 $\varepsilon$、延长衰减 |
| 曲线震荡、不收敛 | 探索过多 | 加快衰减、降 $\varepsilon_{\min}$ |
| 局部最优 | 状态覆盖不全 | 乐观初值、Intrinsic reward |
九、与「利用」相关的非探索技巧
| 技巧 | 作用 |
|---|---|
| 经验回放 | 重复利用旧数据(Off-Policy 样本效率) |
| 目标网络 | 稳定 Bootstrap 目标 |
| PPO clip | 限制策略更新,避免一步破坏已有策略 |
这些不替代探索,但影响利用侧稳定性。