← 上级:RL-07.应用实战
一、真实落地案例:单关节摆力矩控制
| 项 | 说明 |
|---|---|
| 业务背景 | 协作机器人/教学臂单关节 swing-up 或稳态控制;在 MuJoCo/Isaac 训练后部署到真机 |
| Sim2Real Gap | 摩擦、连杆质量、编码器噪声、执行器延迟与饱和 |
| 本 Notebook 代理 | Pendulum-v1:训练时随机 $g$ 与动作噪声;测试时固定 $g=12$(偏离训练分布) |
| 成功 KPI | 「真实」环境 return 接近「随机化 sim」;gap 小于无 DR 对照 |
二、配套 Notebook
| 章节 | 内容 |
|---|---|
DomainRandomizePendulum |
reset 随机重力、step 加动作噪声 |
| SAC 训练 | 域随机化 sim 30k 步 |
| sim vs real eval | 量化 Sim2Real gap |
| 无 DR 对照 | 证明随机化缩小 gap |
1 | pip install gymnasium stable-baselines3 matplotlib numpy |
三、落地主要难点与方案
难点 1:动力学参数不准
| 方案 | 优势 | 局限 |
|---|---|---|
| 域随机化(DR) | 可大规模并行 sim | 范围过大 → 策略保守或难收敛 |
| 系统辨识 + 标定 | gap 小 | 费时、每批硬件不同 |
| 自适应 sim 参数 | 在线缩小 gap | 算法与工程复杂 |
难点 2:感知噪声与延迟
| 方案 | 优势 | 局限 |
|---|---|---|
| DR 加观测噪声 | 鲁棒 | 需调噪声强度 |
| 状态估计器(滤波) | 平滑真机信号 | 引入相位延迟 |
| 端到端视觉 | 无中间模型 | 样本需求更大 |
难点 3:样本效率(真机贵)
| 方案 | 优势 | 局限 |
|---|---|---|
| 纯 sim 训练 | 便宜 | 直接部署常失败 |
| Sim + 少量真机 fine-tune | 平衡 | 仍需安全机制 |
| 行为克隆预训练 | 冷启动 | 专家数据质量 |
难点 4:安全
| 方案 | 优势 | 局限 |
|---|---|---|
| 力矩/速度限幅 | 必做 | 限制极限性能 |
| CBF / 安全层 | 形式化保证 | 建模成本 |
| 硬件急停 | 最后防线 | 非算法层面 |
| 无护栏纯 RL | — | 禁止直接上产线 |
难点 5:评估协议
| 方案 | 优势 | 局限 |
|---|---|---|
| sim 多 seed eval | 快速 | 不能替代真机 |
| 硬件在环(HIL) | 接近真实 | 设备成本 |
| 影子模式 | 零风险观察 | 不验证物理交互 |
四、推荐部署流水线
1 | MuJoCo/Isaac 训练 (SAC/PPO) |
五、方案总览
| 方案 | 优势 | 局限 | 适用阶段 |
|---|---|---|---|
| 域随机化 | 零真机样本 | 调参 | 研发早期 |
| 系统辨识 | 精准 sim | 人工成本 | 量产前 |
| IL + RL | 快速可用策略 | 模仿上限 | 有示教时 |
| 规则护栏 | 可上线 | 性能天花板 | 全程 |
六、小结
- 案例:单关节力矩 Sim2Real,Notebook 用 Pendulum DR 演示。
- 下一篇:项目 Checklist