背景与边界
数据切分(Chunking)是 RAG 流程入口。该节点将原始文档转成可检索语义单元,直接决定召回(Retrieval)上限。
要完成的工作
- 输入:Markdown、PDF、网页、表格、OCR 文本。
- 处理:清洗、解析、切分、重叠、元数据补充、版本管理。
- 输出:标准 Chunk(
chunk_id、doc_id、text、metadata)。
实现目标
- 提升召回可达性与语义完整性。
- 控制 chunk 总量与平均长度。
- 支持增量更新与可追踪回溯。
主要难点
- 固定窗口易截断语义,过大又会引入噪声。
- 多格式文档结构不一致。
- 版本变更导致 chunk 漂移。
成熟解决方案
- 结构优先切分(标题、段落、表格边界)。
- 语义切分(相似度判边界)。
- 层级切分(父子 Chunk 联合)。
- 离线评测门禁后上线。
二级方法对比(含 100 篇生物学文献量级)
假设(全文同):约 100 篇生物学 PDF(期刊/预印本,约 10–15 页/篇,含摘要、正文、图表与参考文献);离线批处理;硬件参考 单卡 NVIDIA A10 24GB + 32GB 系统内存。下表为工程量级估算,非固定基准;生物领域常见 双栏、插图、化学式与密集引用,解析与切分偏「偏重」。
| 二级方法 | 适用范围 | 特点 | 100 篇文献·资源消耗(估算) | 100 篇文献·时间消耗(估算) |
|---|---|---|---|---|
| Chunking-centric | 版式已规整、需统一 chunk 策略 | 以切分/重叠策略拉齐召回上限,常配合离线 recall 评测 | 内存 8–16 GB;磁盘增量约 0.5–1.5 GB;可不使用 GPU | 多策略网格 + 同一批评测问句:约 0.5–2 CPU·h |
| Document Parsing | 扫描件、双栏、表格/公式/插图多 | 版面、阅读顺序、表格结构先于切分,决定下游上限 | 内存 16–32 GB;临时磁盘 10–25 GB;可选 GPU 8 GB(布局/检测加速) | 解析 + OCR + 表格:约 3–10 CPU·h,或 1–4 GPU·h(视工具与是否批处理) |
| Hierarchical Chunking | 长篇综述、章节层级明显 | 父子 chunk 联合检索,粗到细两级 | 索引体积约为扁平策略 1.2–1.8×;内存 +15–30% | 建库较同语料扁平切分:约 +30%–70% 离线时间 |