RAG 实践 - AI 指南

目标与流程

RAG 将外部知识与生成能力结合，确保答案有来源、可追溯且可更新。典型流程：清洗与分块 → 嵌入与入库 → 检索与重排 → 组装上下文 → 生成与标注引用 → 评估与迭代。

数据处理与分块

清洗：去噪、去脚本、合并断行与修复编码；保留结构（标题、列表、表格）。
分块策略：按语义/结构分块（标题+段落）优于固定长度；保留上下文滑窗。
元数据：来源、章节、时间戳、权限标签；便于过滤与审计。

嵌入与向量库

嵌入模型：根据语言与领域选择（中文/多语种/代码/表格）。
存储：选择支持过滤与检索的向量库（如支持 HNSW/IVF 与元数据过滤）。
更新策略：批量/增量索引；记录版本与血缘。

// Node.js（示意）
const embedRes = await client.embeddings.create({ model: "EMBED_MODEL", input: chunks });
await upsert(embedRes.data.map((v,i)=>({ id: `${doc.id}-${i}`, vector: v.embedding, text: chunks[i], meta })));

检索与重排

初检索：向量相似度检索 + 关键词过滤；支持权限与时间窗口。
重排（Rerank）：引入重排模型优化相关性与多样性，减少冗余。
去重与聚合：相似段落合并；限制每段长度与总上下文大小。

// Rerank（示意）
const hits = await search(qvec, { k: 20, filter });
const reranked = await rerank(hits, query);
const topK = dedup(reranked).slice(0, 6);

提示组装与生成

模板：系统消息明确边界与引用规则（只依据提供片段）。
引用标注：在答案末尾列出来源；可对句级进行高亮与编号。
上下文裁剪：对长段落进行摘要；保留关键证据以节省 Token。

// 生成（示意）
const context = topK.map(h => `【片段】${h.text}\n来源:${h.meta.source}`).join("\n\n");
const res = await client.chat.completions.create({
  model: "MODEL_NAME",
  messages: [
    { role: "system", content: "仅依据提供片段回答，并在末尾列出引用。" },
    { role: "user", content: `资料:\n\n${context}\n\n问题:${query}` }
  ]
});

质量与评估

准确性：是否基于片段作答、是否有幻觉、引用是否正确。
覆盖度：检索到关键证据的比例；与基准集对比。
稳定性：不同表达的查询结果一致性；对抗与注入防御。

工程建议

权限过滤：检索时按用户角色过滤；避免越权与数据泄露。
流式与交互：生成过程实时展示；支持追问与细化检索。
日志与审计：记录检索与生成链路；保留引用与版本。
在线学习：基于反馈调整索引与模板；增量优化。

RAG 实践（检索增强生成）

目标与流程

数据处理与分块

嵌入与向量库

检索与重排

提示组装与生成

质量与评估

工程建议