背景与边界
模块评估是 RAG 的迭代引擎,通过可复现评测把“偶然提升”变为“稳定提升”。
要完成的工作
- 输入:离线评测集、线上日志、实验配置。
- 处理:模块拆分、A/B 测试、回归评测、根因分析。
- 输出:上线决策与回滚依据。
实现目标
- 快速定位质量与性能瓶颈。
- 确保迭代不回退。
- 支持并行开发与灰度发布。
主要难点
- 指标不统一导致结果不可比。
- 离线收益不一定等价线上收益。
成熟解决方案
- 分层指标体系(检索、重排、生成、系统)。
- Benchmark 回归集 + 场景专项集。
- AB Experiment 发布门禁与自动回滚。
二级方法对比(含 100 篇生物学文献量级)
说明:评估类方法的主要「消耗」是 人机协作与实验周期,而非 100 篇 PDF 本身。下表给出以 100 篇生物学文献建库产物 为对象时,离线评测与线上实验的量级参考(硬件仍按 A10 24GB 级)。
| 二级方法 | 适用范围 | 特点 | 100 篇文献·资源消耗(估算) | 100 篇文献·时间消耗(估算) |
|---|---|---|---|---|
| Modular RAG | 中大型平台、多团队并行 | 接口稳定、模块可替换与回滚 | 不直接增加数据面资源;多套索引/模型 时磁盘与 GPU 按模块倍增 | 工程拆分与联调:人周级;与 100 篇文献无单点公式关系 |
| Evaluation Benchmark | 发布门禁、回归 | 固定评测集 + 指标可复现 | 评测集存储 < 2 GB;跑分 GPU 8–24 GB(随模型) | 在 100 篇语料子集上构造 200–500 条生物问答并全链路打分:约 0.5–4 GPU·h/次回归 |
| AB Experiment | 验证线上真实收益 | 随机分桶 + 护栏指标 | 实验平台与日志存储 按流量;与 100 篇无直接映射 | 有效样本下常需 数天–两周 观测;100 篇库若流量小则需延长或合成压测 |