RAG-02.索引召回框架概述

发表于 2026-03-26 | 分类于开发

一级框架 02 索引召回：索引形态与召回策略联动设计的方法论与工程实践。

背景与边界

索引（Indexing）与召回（Retrieval）强耦合：索引方式决定可检索信号，召回策略决定信号利用方式。

要完成的工作

输入：标准 Chunk、元数据与查询请求。
处理：索引构建（dense/sparse/graph/multimodal）与召回编排（single/hybrid/router）。
输出：候选文档集（含得分、通道、解释）。

实现目标

高召回、高稳定、低时延、可解释。

主要难点

语义匹配与关键词匹配的权衡。
多通道融合后的去重、归一化、校准。
跨模态与长尾术语一致性问题。

成熟解决方案

Hybrid 检索（BM25 + dense + Rerank）。
Sparse/Boolean 精确过滤。
ColBERT 高精度 token 匹配。
Query Rewrite 与 Retrieval Router。
Graph / Multimodal 专项索引。

二级方法对比（含 100 篇生物学文献量级）

假设：约 100 篇生物学 PDF（约 10–15 页/篇），经切分后约 3k–8k chunks（与 chunk 大小强相关）；离线建索引 + 抽样查询评测；硬件参考 单卡 A10 24GB + 32GB RAM。下表为量级估算。

二级方法	适用范围	特点	100 篇文献·资源消耗（估算）	100 篇文献·时间消耗（估算）
Naive RAG	POC、小规模内部库	单向量 + top-k，链路最短	嵌入阶段 GPU 8–12 GB 峰值；向量索引磁盘约 1–4 GB	仅嵌入+建 HNSW：约 0.3–1.2 GPU·h
Advanced RAG	高准企业问答	多查询/多路召回 + 重排 + 可选压缩	多模型叠加，GPU 16–24 GB；磁盘 3–8 GB	建库同量级 Naive；单次查询延迟常为 Naive 的 2–6×
Hybrid RAG	通用企业库、术语+语义并存	BM25 + dense 互补	倒排 + 向量，磁盘约 2–6 GB；GPU 用于 dense	双索引构建：约 0.6–2 GPU·h（含 BM25）
Boolean Retrieval	元数据强约束（物种、期刊、年份）	DSL 硬过滤，再在小集合上语义	倒排为主，内存 4–12 GB；GPU 非必需	建倒排：约 5–30 min；适合作前置筛
Sparse Vector	术语密集、需可解释权重	SPLADE 等稀疏语义，点积检索	GPU 12–16 GB；稀疏索引约 3–7 GB	编码+建库：约 0.8–2.5 GPU·h
ColBERT	高精度语义、段落级对齐	late interaction（MaxSim），索引大	GPU 16–24 GB；ColBERT 索引常 8–25 GB	建库：约 2–8 GPU·h（与 token 截断策略相关）
Graph RAG	基因/通路/引用关系、多跳问题	实体关系子图 + 文本回填	图存储 2–10 GB；实体抽取额外 NLP 资源	建图：约 5–25 CPU·h（100 篇可到数十小时若细粒度 IE）
Multimodal RAG	电镜/凝胶图、机制图、附表	图文联合编码与检索	GPU 24–48 GB 常见；多模索引显著大于纯文本	图像/图编码 + 索引：约 4–14 GPU·h
Query Rewrite	短查询、口语、缩写	多查询扩展后再合并召回	改写侧小模型/API；索引体量同底库	在线：每问 +50–300 ms（视改写条数）；离线建库不变
Retrieval Router	查询类型差异大（事实 vs 关系）	先路由再选检索器，降平均成本	路由模型轻量；需维护多路索引	路由开销约 1–8 ms/问；建库不变
Fusion	多通道结果需稳定融合	RRF/分数校准，与通道排名强相关	计算轻；内存随候选并集增大	融合本身毫秒级；主要成本在各通道前序检索

与二级文档映射

-------------本文结束感谢您的阅读-------------