RL-02-03-探索与利用

RL 的奖励信号稀疏且延迟，Agent 必须在尝试未知动作（探索）与执行当前最优（利用）之间权衡。本文从多臂老虎机（Multi-Armed Bandit，MAB）出发，介绍常用探索策略及在 Q-Learning 中的用法。

段末注释：多臂老虎机（Multi-Armed Bandit，MAB）指每步在多个动作中选一个、仅观测该臂奖励的简化 RL 问题；后文沿用 MAB。

探索与利用权衡示意

一、为何必须探索

仅选 $\arg\max_a Q(s,a)$ 时：

探索保证每个 $(s,a)$ 或每个 bandit 臂有足够样本，使估计收敛到真值或适应变化。

$K$ 个臂，选臂 $a$ 得奖励 $R \sim \mathcal{D}_a$，目标最大化累积奖励。

MAB 是 RL 的「单状态」特例；推荐系统常用 Contextual Bandit 做快速 A/B，见 RL-07.应用实战。

$$
a = \begin{cases}
\text{Uniform}(A) & \text{概率 } \varepsilon \
\arg\max_a Q(s,a) & \text{概率 } 1-\varepsilon
\end{cases}
$$

优点	缺点
实现极简	探索与利用不区分不确定性
Q-Learning 标配	线性 $\varepsilon$ 可能探索过多或过早利用

策略	形式
线性	$\varepsilon_t = \max(\varepsilon_{\min}, \varepsilon_0 - kt)$
指数	$\varepsilon_t = \varepsilon_{\min} + (\varepsilon_0 - \varepsilon_{\min}) e^{-\lambda t}$
分阶段	前 10% 步 $\varepsilon=1$，再衰减

DQN 论文：前 $10^6$ 步从 1.0 线性降至 0.1。

按 $Q$ 值比例采样：

$$
\pi(a|s) = \frac{\exp(Q(s,a)/\tau)}{\sum_{a’} \exp(Q(s,a’)/\tau)}
$$

温度 $\tau$：

比 $\varepsilon$-greedy 更「平滑」地偏向高 $Q$ 动作；SAC 等用熵正则化是连续/随机策略侧的延伸。

每臂 $a$ 维护估计 $\hat{Q}_a$ 与次数 $N_a$，选：

$$
a = \arg\max_a \left( \hat{Q}_a + c \sqrt{\frac{\ln t}{N_a}} \right)
$$

乐观面对不确定性：尝试次数 $N_a$ 小的臂 bonus 大，自动探索。

特点	说明
理论 Regret 界	平稳 bandit 下对数级
状态扩展	到 MDP 需每 $(s,a)$ 计数，状态大时不适用

为每臂维护奖励分布的后验（如 Beta），每步从后验采样一值再 $\arg\max$，自然平衡探索与利用。贝叶斯 bandit 常用，工程上 Contextual Bandit 也常见。

组件	探索角色
行为策略	$\varepsilon$-greedy 或 Noisy Net
学习目标	Q-Learning 仍对 $\max Q(s’,a’)$（Off-Policy）
衰减	训练后期减小 $\varepsilon$，提高利用

注意：SARSA 的 On-Policy 更新与 $\varepsilon$-greedy 行为一致，悬崖行走等例中更保守。

这些不替代探索，但影响利用侧稳定性。