RAG-06.模块评估框架概述

背景与边界

模块评估是 RAG 的迭代引擎，通过可复现评测把“偶然提升”变为“稳定提升”。

说明：评估类方法的主要「消耗」是 人机协作与实验周期，而非 100 篇 PDF 本身。下表给出以 100 篇生物学文献建库产物 为对象时，离线评测与线上实验的量级参考（硬件仍按 A10 24GB 级）。

二级方法	适用范围	特点	100 篇文献·资源消耗（估算）	100 篇文献·时间消耗（估算）
Modular RAG	中大型平台、多团队并行	接口稳定、模块可替换与回滚	不直接增加数据面资源；多套索引/模型时磁盘与 GPU 按模块倍增	工程拆分与联调：人周级；与 100 篇文献无单点公式关系
Evaluation Benchmark	发布门禁、回归	固定评测集 + 指标可复现	评测集存储 < 2 GB；跑分 GPU 8–24 GB（随模型）	在 100 篇语料子集上构造 200–500 条生物问答并全链路打分：约 0.5–4 GPU·h/次回归
AB Experiment	验证线上真实收益	随机分桶 + 护栏指标	实验平台与日志存储按流量；与 100 篇无直接映射	有效样本下常需数天–两周观测；100 篇库若流量小则需延长或合成压测