本文属于 RAG 工程框架中的「5 在线运营与成本治理」环节,聚焦「Fallback/SLA(回退与服务等级)」方法。可先阅读 RAG-00.方法概述 再进入本篇。
原理
当链路超时或依赖异常时,按预设服务等级(SLA)自动降级到轻量路径,保障可用性。
关键技术/实现路径
- 超时熔断与重试策略。
- 多级降级路径(full -> lite -> cached)。
- SLA 分层(VIP/普通)。
优缺点
- 优点:高峰期稳定性强。
- 缺点:降级状态下答案质量可能下降。
性能与资源
- 显著降低极端场景尾延迟(P95/P99)。
应用场景
- 高并发企业问答与 API 服务。
统一合成数据示例
输入数据片段
1 | {"query":"机票报销上限","timeout_ms":1200} |
中间结果(降级判定)
1 | {"primary_chain":"timeout","fallback_chain":"cache_first_rag_lite"} |
最终生成示例(含引用)
1 | {"answer":"机票报销上限为2000元。","latency_ms":180,"citations":[{"doc_id":"D01","evidence_span":"机票报销上限2000元"}]} |
原始发表与工程实现
- 代表性原始发表:SRE 熔断降级模式。
- 核心解决问题:解决高峰与异常可用性。
- 成熟实现工具:Envoy, 降级网关, circuit breaker。
详细原理拆解
- 超时或错误触发降级链路,优先保证 SLA 可用性。
- 典型实现可拆为:输入预处理 -> 方法核心计算 -> 候选/证据构建 -> 生成与引用。
- 工程调优重点:质量(准确率/引用率)与成本(时延/token)的联合优化。
1 | flowchart LR |
工程落地扩展示例
伪代码
1 | def sla_rag(query, primary, fallback, deadline_ms: int): |
参数示例
1 | primary_timeout_ms: 1200 |
常见失败案例
- 失败模式 1:降级路径 质量骤降,用户看到大量「无法回答」。
- 失败模式 2:熔断误触发,全局降级 放大事故。
- 失败模式 3:未区分 可缓存 FAQ 与 强时效政策,缓存兜底传播错误。
Demo 数据带入计算示例
1 | p95 目标 900ms,实测 1180ms → 关闭重排仅 dense top-k,p95→640ms,SLA 恢复。 |