RL-07-05-实战-项目Checklist

← 上级:RL-07.应用实战

本文提供可勾选清单;配套 Notebook 将清单落实为可执行检查与多 seed 评估。


一、配套 Notebook

📓 rl_project_checklist_walkthrough.ipynb

CartPole 平衡 POC 为例走查:MDP 文档 → KPI 对齐 → 多 seed PPO → 门禁判定 → JSON 实验记录。


二、各案例 Notebook 与交付物对照

案例 Notebook 核心交付 上线前必过门禁
AGV 平衡 POC cartpole_control_baseline.ipynb PPO 曲线、eval>450 多 seed、对比随机
5 槽位推荐 bandit_news_recommendation.ipynb Regret 曲线 UCB 优于贪心、5% A/B
集群调度 bioinfo_cluster_scheduling.ipynb 等待时间 vs FIFO shadow p99 改善
Sim2Real sim2real_pendulum_dr.ipynb DR 缩小 gap 真机/HIL 限速试跑
Checklist 走查 rl_project_checklist_walkthrough.ipynb JSON 实验记录 gate_passed

三、立项五问(必答)

  • MDP 闭环:$S,A,R,\gamma$ 可写进文档且与代码一致?
  • 奖励 = KPI:是否列出 reward hacking 反例?
  • 仿真/日志:能否 cheap 采样(sim / bandit / trace)?
  • 非平稳:重训频率与监控指标?
  • 评估 + A/B:离线指标与在线 shadow 方案?

四、建模文档模板

章节 内容
状态 字段、归一化、延迟
动作 离散/连续、约束、非法动作过滤
奖励 公式、塑形、与 GMV/SLA 映射
Episode 起止、truncated 处理
反例 刷分、逃逸、安全隐患

五、开发阶段交付

阶段 交付 参考
Baseline 规则/SB3 曲线 RL-06-SB3
自研 v1 训练循环 + 日志 RL-04
调参 config.yaml RL-04-06-超参与调优
复现 seed + requirements RL-06-05-实验记录与复现

六、上线门禁

  • ≥3 seed,关键指标 mean ± std
  • 显著优于 baseline(统计或业务阈值)
  • 影子模式 / 小流量 A/B
  • 回滚开关与告警
  • 安全/合规(机器人、金融等)

七、监控

指标 说明
回报代理 与训练 reward 对齐的线上可算指标
动作分布 KL 检测策略漂移
SLA / p99 调度、推荐延迟类
探索率 / 熵 Bandit/RL 非平稳时再训触发

八、工程链路

RL 项目工程链路


九、小结

  • 每个实战案例均有 ipynb + 难点方案表;Checklist Notebook 串联 POC 流程。
  • 索引:RL-00.系列概述
-------------本文结束感谢您的阅读-------------