先看结论
当用户问题混入指令、诱导和越权内容时,怎样保护知识库和模型回答边界。
适合谁看
适合准备做企业知识库、客服机器人、FAQ 助手和 AI 质检的团队。
这篇会回答
• 先分清是正常提问,还是带指令的攻击输入
• 检索边界和回答边界要分开设计
• 高风险问题要直接进入人工审核或拒答

Reading Path
这篇在专题里的位置
从文档入库、混合检索、Rerank、Prompt 注入防护到效果评测、ROI 和客服质检,串成一条完整落地路径。
第 1 节
先分清是正常提问,还是带指令的攻击输入
很多注入攻击表面上看只是一个普通问题,但里面夹了“忽略之前规则”“列出所有内部信息”这类控制性指令。
如果系统没有单独识别这些模式,就很容易把恶意输入当成正常问题一起送进检索和回答链路。
第 2 节
检索边界和回答边界要分开设计
很多团队只在回答 Prompt 里写规则,却没有限制检索范围,结果用户虽然没直接拿到原文,但已经通过检索侧把敏感片段挖出来了。
更稳的方式是同时约束检索权限、候选过滤和回答模板,让恶意问题在进入最终回答前就被拦下来。
第 3 节
高风险问题要直接进入人工审核或拒答
涉及内部账号、客户隐私、财务数据和未公开制度的问题,不应该靠模型自己判断得失。
对于高风险分类,系统应该明确拒答、提示权限不足或转人工,而不是继续做“聪明”的推理尝试。
FAQ
常见问题
只要把系统 Prompt 写得更强就够了吗?
不够。Prompt 只是其中一层,真正的防护还要包括权限、检索过滤、日志审计和高风险问题的人工接管。
普通企业知识库也需要做这类防护吗?
需要。只要知识库里有内部文档、客户资料或权限边界,就不能默认所有问题都是善意输入。
Continue Reading
继续沿着这条主线看
这部分不再重新给你一堆大卡片,而是直接把下一步阅读顺序列出来,方便继续往下走。