指南目录/ 知识库与 RAG

知识库 Prompt 注入与越权检索防护

RAG 场景里最容易被低估的风险,不是模型答错,而是用户把恶意指令、越权要求和数据探测混进提问里,让系统自己绕过边界。

先看结论

当用户问题混入指令、诱导和越权内容时,怎样保护知识库和模型回答边界。

适合谁看

适合准备做企业知识库、客服机器人、FAQ 助手和 AI 质检的团队。

这篇会回答

先分清是正常提问,还是带指令的攻击输入

检索边界和回答边界要分开设计

高风险问题要直接进入人工审核或拒答

知识库 Prompt 注入与越权检索防护 文章配图
1

先分清是正常提问,还是带指令的攻击输入

很多注入攻击表面上看只是一个普通问题,但里面夹了“忽略之前规则”“列出所有内部信息”这类控制性指令。

如果系统没有单独识别这些模式,就很容易把恶意输入当成正常问题一起送进检索和回答链路。

2

检索边界和回答边界要分开设计

很多团队只在回答 Prompt 里写规则,却没有限制检索范围,结果用户虽然没直接拿到原文,但已经通过检索侧把敏感片段挖出来了。

更稳的方式是同时约束检索权限、候选过滤和回答模板,让恶意问题在进入最终回答前就被拦下来。

3

高风险问题要直接进入人工审核或拒答

涉及内部账号、客户隐私、财务数据和未公开制度的问题,不应该靠模型自己判断得失。

对于高风险分类,系统应该明确拒答、提示权限不足或转人工,而不是继续做“聪明”的推理尝试。

FAQ

常见问题

只要把系统 Prompt 写得更强就够了吗?

不够。Prompt 只是其中一层,真正的防护还要包括权限、检索过滤、日志审计和高风险问题的人工接管。

普通企业知识库也需要做这类防护吗?

需要。只要知识库里有内部文档、客户资料或权限边界,就不能默认所有问题都是善意输入。

Continue Reading

继续沿着这条主线看

这部分不再重新给你一堆大卡片,而是直接把下一步阅读顺序列出来,方便继续往下走。