先看结论
从命中率、引用可信度到回答可用性,建立一套能持续优化的知识库评测框架。
适合谁看
适合准备做企业知识库、客服机器人、FAQ 助手和 AI 质检的团队。
这篇会回答
• 先把评测拆成召回、引用和回答三层
• 问题集要来自真实业务,而不是理想样例
• 评测要能长期复跑,而不是一次性演示

Reading Path
这篇在专题里的位置
从文档入库、混合检索、Rerank、Prompt 注入防护到效果评测、ROI 和客服质检,串成一条完整落地路径。
第 1 节
先把评测拆成召回、引用和回答三层
很多团队把知识库效果混成一个模糊概念,结果一旦答错,就不知道问题出在召回、上下文还是模型回答。
更稳的方法是把评测拆成三层:是否召回到正确片段、是否引用了可信来源、最终回答是否真正解决问题。
第 2 节
问题集要来自真实业务,而不是理想样例
如果评测问题全是你自己设计的标准问法,知识库很容易显得效果不错,但用户一上手就暴露真实问题。
因此样本应该来自客服记录、销售问答、内部制度咨询和历史工单,尽量覆盖模糊问法、错别字和跨文档问题。
第 3 节
评测要能长期复跑,而不是一次性演示
知识库不是做完就不变的系统,文档会更新,切片会调整,模型也会切换,所以评测必须能反复执行。
真正有价值的评测体系,应该在每次文档更新、检索策略调整或模型切换后都能快速复跑,持续发现退化点。
FAQ
常见问题
知识库效果只看最终回答行不行?
不够。只看回答,你很难判断错在召回、引用还是回答生成。分层评测才能真正找到该优化的环节。
评测是不是一定要很复杂才有用?
不用。一开始哪怕只有几十条真实问题和明确的正确来源,也比完全靠主观感觉要强得多。
Continue Reading
继续沿着这条主线看
这部分不再重新给你一堆大卡片,而是直接把下一步阅读顺序列出来,方便继续往下走。