背景与边界
索引(Indexing)与召回(Retrieval)强耦合:索引方式决定可检索信号,召回策略决定信号利用方式。
要完成的工作
- 输入:标准 Chunk、元数据与查询请求。
- 处理:索引构建(dense/sparse/graph/multimodal)与召回编排(single/hybrid/router)。
- 输出:候选文档集(含得分、通道、解释)。
实现目标
- 高召回、高稳定、低时延、可解释。
主要难点
- 语义匹配与关键词匹配的权衡。
- 多通道融合后的去重、归一化、校准。
- 跨模态与长尾术语一致性问题。
成熟解决方案
- Hybrid 检索(BM25 + dense + Rerank)。
- Sparse/Boolean 精确过滤。
- ColBERT 高精度 token 匹配。
- Query Rewrite 与 Retrieval Router。
- Graph / Multimodal 专项索引。
二级方法对比(含 100 篇生物学文献量级)
假设:约 100 篇生物学 PDF(约 10–15 页/篇),经切分后约 3k–8k chunks(与 chunk 大小强相关);离线建索引 + 抽样查询评测;硬件参考 单卡 A10 24GB + 32GB RAM。下表为量级估算。
| 二级方法 | 适用范围 | 特点 | 100 篇文献·资源消耗(估算) | 100 篇文献·时间消耗(估算) |
|---|---|---|---|---|
| Naive RAG | POC、小规模内部库 | 单向量 + top-k,链路最短 | 嵌入阶段 GPU 8–12 GB 峰值;向量索引磁盘 约 1–4 GB | 仅嵌入+建 HNSW:约 0.3–1.2 GPU·h |
| Advanced RAG | 高准企业问答 | 多查询/多路召回 + 重排 + 可选压缩 | 多模型叠加,GPU 16–24 GB;磁盘 3–8 GB | 建库同量级 Naive;单次查询延迟常为 Naive 的 2–6× |
| Hybrid RAG | 通用企业库、术语+语义并存 | BM25 + dense 互补 | 倒排 + 向量,磁盘 约 2–6 GB;GPU 用于 dense | 双索引构建:约 0.6–2 GPU·h(含 BM25) |
| Boolean Retrieval | 元数据强约束(物种、期刊、年份) | DSL 硬过滤,再在小集合上语义 | 倒排为主,内存 4–12 GB;GPU 非必需 | 建倒排:约 5–30 min;适合作前置筛 |
| Sparse Vector | 术语密集、需可解释权重 | SPLADE 等稀疏语义,点积检索 | GPU 12–16 GB;稀疏索引 约 3–7 GB | 编码+建库:约 0.8–2.5 GPU·h |
| ColBERT | 高精度语义、段落级对齐 | late interaction(MaxSim),索引大 | GPU 16–24 GB;ColBERT 索引常 8–25 GB | 建库:约 2–8 GPU·h(与 token 截断策略相关) |
| Graph RAG | 基因/通路/引用关系、多跳问题 | 实体关系子图 + 文本回填 | 图存储 2–10 GB;实体抽取 额外 NLP 资源 | 建图:约 5–25 CPU·h(100 篇可到数十小时若细粒度 IE) |
| Multimodal RAG | 电镜/凝胶图、机制图、附表 | 图文联合编码与检索 | GPU 24–48 GB 常见;多模索引 显著大于 纯文本 | 图像/图编码 + 索引:约 4–14 GPU·h |
| Query Rewrite | 短查询、口语、缩写 | 多查询扩展后再合并召回 | 改写侧 小模型/API;索引体量同底库 | 在线:每问 +50–300 ms(视改写条数);离线建库不变 |
| Retrieval Router | 查询类型差异大(事实 vs 关系) | 先路由再选检索器,降平均成本 | 路由模型 轻量;需维护多路索引 | 路由开销 约 1–8 ms/问;建库不变 |
| Fusion | 多通道结果需稳定融合 | RRF/分数校准,与通道排名强相关 | 计算轻;内存随候选并集增大 | 融合本身 毫秒级;主要成本在各通道前序检索 |