RAG-01.数据切分框架概述

发表于 2026-03-26 | 分类于开发

一级框架 01 数据切分：输入规范化、分块策略、质量评测与工程落地要点。

背景与边界

数据切分（Chunking）是 RAG 流程入口。该节点将原始文档转成可检索语义单元，直接决定召回（Retrieval）上限。

要完成的工作

输入：Markdown、PDF、网页、表格、OCR 文本。
处理：清洗、解析、切分、重叠、元数据补充、版本管理。
输出：标准 Chunk（chunk_id、doc_id、text、metadata）。

实现目标

提升召回可达性与语义完整性。
控制 chunk 总量与平均长度。
支持增量更新与可追踪回溯。

主要难点

固定窗口易截断语义，过大又会引入噪声。
多格式文档结构不一致。
版本变更导致 chunk 漂移。

成熟解决方案

结构优先切分（标题、段落、表格边界）。
语义切分（相似度判边界）。
层级切分（父子 Chunk 联合）。
离线评测门禁后上线。

二级方法对比（含 100 篇生物学文献量级）

假设（全文同）：约 100 篇生物学 PDF（期刊/预印本，约 10–15 页/篇，含摘要、正文、图表与参考文献）；离线批处理；硬件参考 单卡 NVIDIA A10 24GB + 32GB 系统内存。下表为工程量级估算，非固定基准；生物领域常见 双栏、插图、化学式与密集引用，解析与切分偏「偏重」。

二级方法	适用范围	特点	100 篇文献·资源消耗（估算）	100 篇文献·时间消耗（估算）
Chunking-centric	版式已规整、需统一 chunk 策略	以切分/重叠策略拉齐召回上限，常配合离线 recall 评测	内存 8–16 GB；磁盘增量约 0.5–1.5 GB；可不使用 GPU	多策略网格 + 同一批评测问句：约 0.5–2 CPU·h
Document Parsing	扫描件、双栏、表格/公式/插图多	版面、阅读顺序、表格结构先于切分，决定下游上限	内存 16–32 GB；临时磁盘 10–25 GB；可选 GPU 8 GB（布局/检测加速）	解析 + OCR + 表格：约 3–10 CPU·h，或 1–4 GPU·h（视工具与是否批处理）
Hierarchical Chunking	长篇综述、章节层级明显	父子 chunk 联合检索，粗到细两级	索引体积约为扁平策略 1.2–1.8×；内存 +15–30%	建库较同语料扁平切分：约 +30%–70% 离线时间

与二级文档映射

-------------本文结束感谢您的阅读-------------