RL-07-04-实战-Sim2Real

← 上级:RL-07.应用实战


一、真实落地案例:单关节摆力矩控制

说明
业务背景 协作机器人/教学臂单关节 swing-up 或稳态控制;在 MuJoCo/Isaac 训练后部署到真机
Sim2Real Gap 摩擦、连杆质量、编码器噪声、执行器延迟与饱和
本 Notebook 代理 Pendulum-v1:训练时随机 $g$ 与动作噪声;测试时固定 $g=12$(偏离训练分布)
成功 KPI 「真实」环境 return 接近「随机化 sim」;gap 小于无 DR 对照

二、配套 Notebook

📓 sim2real_pendulum_dr.ipynb

章节 内容
DomainRandomizePendulum reset 随机重力、step 加动作噪声
SAC 训练 域随机化 sim 30k 步
sim vs real eval 量化 Sim2Real gap
无 DR 对照 证明随机化缩小 gap
1
2
pip install gymnasium stable-baselines3 matplotlib numpy
jupyter notebook sim2real_pendulum_dr.ipynb

三、落地主要难点与方案

难点 1:动力学参数不准

方案 优势 局限
域随机化(DR) 可大规模并行 sim 范围过大 → 策略保守或难收敛
系统辨识 + 标定 gap 小 费时、每批硬件不同
自适应 sim 参数 在线缩小 gap 算法与工程复杂

难点 2:感知噪声与延迟

方案 优势 局限
DR 加观测噪声 鲁棒 需调噪声强度
状态估计器(滤波) 平滑真机信号 引入相位延迟
端到端视觉 无中间模型 样本需求更大

难点 3:样本效率(真机贵)

方案 优势 局限
纯 sim 训练 便宜 直接部署常失败
Sim + 少量真机 fine-tune 平衡 仍需安全机制
行为克隆预训练 冷启动 专家数据质量

难点 4:安全

方案 优势 局限
力矩/速度限幅 必做 限制极限性能
CBF / 安全层 形式化保证 建模成本
硬件急停 最后防线 非算法层面
无护栏纯 RL 禁止直接上产线

难点 5:评估协议

方案 优势 局限
sim 多 seed eval 快速 不能替代真机
硬件在环(HIL) 接近真实 设备成本
影子模式 零风险观察 不验证物理交互

四、推荐部署流水线

1
2
3
4
5
6
7
MuJoCo/Isaac 训练 (SAC/PPO)
→ 域随机化
→ sim 多场景 eval
→ HIL / 真机小范围(限速)
→ 影子模式记录动作
→ 护栏 + 小流量
→ 全量 + 监控力矩/温度/误差

五、方案总览

方案 优势 局限 适用阶段
域随机化 零真机样本 调参 研发早期
系统辨识 精准 sim 人工成本 量产前
IL + RL 快速可用策略 模仿上限 有示教时
规则护栏 可上线 性能天花板 全程

六、小结

  • 案例:单关节力矩 Sim2Real,Notebook 用 Pendulum DR 演示。
  • 下一篇项目 Checklist
-------------本文结束感谢您的阅读-------------