RL-03-12-算法-DDPG-TD3-SAC

离散动作可用 DQN 的 $\max_{a’} Q(s’,a’)$；连续动作下 $\max$ 在无穷动作上不可行。DDPG、TD3、SAC 用 Actor-Critic + 经验回放，面向 MuJoCo 等连续控制基准。

一、DDPG（Deep Deterministic Policy Gradient）

思想：Actor 输出确定性动作 $a = \mu_\theta(s)$；Critic 学 $Q_\phi(s,a)$；Off-Policy + Replay + 目标网络（扩展 DQN 到连续）。

$$
y = r + \gamma Q_{\bar{\phi}}(s’, \mu_{\bar{\theta}}(s’))
$$

$$
\mathcal{L}Q = \mathbb{E}\left[ (Q\phi(s,a) - y)^2 \right]
$$

$$
\nabla_\theta J \approx \mathbb{E}\left[ \nabla_a Q_\phi(s,a)|{a=\mu\theta(s)} \nabla_\theta \mu_\theta(s) \right]
$$

最大化 Q，通过链式法则对 Actor 求导。

确定性策略 + 动作空间加噪声（如 Ornstein-Uhlenbeck 或高斯）。

问题	说明
Q 过估计	→ TD3 双 Critic
目标抖动	→ 目标策略平滑

Fujimoto et al., 2018 三项改进：

技巧	做法
Clipped Double Q	两个 $Q_{\phi_1}, Q_{\phi_2}$，目标取 $\min(Q_1, Q_2)$
Delayed Policy Update	Critic 更新 $d$ 次才更新 Actor 1 次
Target Policy Smoothing	目标动作加裁剪噪声 $\tilde{a} = \mu_{\bar{\theta}}(s’) + \text{clip}(\mathcal{N}, -c, c)$

目标：

$$
y = r + \gamma \min_{i=1,2} Q_{\bar{\phi}_i}(s’, \tilde{a})
$$

TD3 常比 DDPG 更稳，MuJoCo 默认强基线之一。

最大熵 RL：最大化回报的同时最大化策略熵，鼓励探索：

$$
J(\pi) = \mathbb{E}\left[ \sum_t r_t + \alpha \mathcal{H}(\pi(\cdot|s_t)) \right]
$$

Soft Q 目标含熵项；Actor 最大化 $Q(s,a) - \alpha \log \pi(a|s)$。

样本效率通常优于 PPO（连续任务），但实现与调参略复杂。

工具：RL-06 Stable-Baselines3 均内置 SAC、TD3、DDPG。