先看结论
在上传合同、客服记录和内部文档前,先把个人信息与敏感字段做规则化处理。
适合谁看
适合准备做企业知识库、客服机器人、FAQ 助手和 AI 质检的团队。
这篇会回答
• 先定义哪些数据不能直接上传
• 脱敏方式要和使用场景匹配
• 知识库上线后还要做权限隔离

Reading Path
这篇在专题里的位置
从文档入库、混合检索、Rerank、Prompt 注入防护到效果评测、ROI 和客服质检,串成一条完整落地路径。
第 1 节
先定义哪些数据不能直接上传
手机号、身份证、银行卡、住址、客户账号、内部项目代号,这些字段不能靠感觉处理,必须先定义规则。
只有把敏感字段范围列清楚,后面的脱敏、审计和权限隔离才有可执行基础,否则每个人都会按自己的理解操作。
第 2 节
脱敏方式要和使用场景匹配
有些场景只需要不可逆脱敏,让模型看不到真实身份;有些场景则需要可逆映射,方便后续回查原文。
因此不要只追求“打星号”,而要明确后续是为了总结、检索、对账还是审批,这会直接影响脱敏策略设计。
第 3 节
知识库上线后还要做权限隔离
很多团队只在上传前做了脱敏,却忽略了检索结果和引用内容同样可能暴露敏感字段。
真正合规的做法,是把脱敏、检索权限、日志审计和人工抽查放在同一条链路里,而不是只做一次预处理就结束。
FAQ
常见问题
脱敏后模型效果会不会变差?
会有一定影响,但通常比直接暴露敏感数据更可接受。关键是保留足够的业务结构信息,而不是把所有字段都抹成一片空白。
做了脱敏就代表完全安全了吗?
不是。脱敏只是第一层,后面还要看权限控制、检索边界、日志暴露和人工操作流程,安全永远不是单点动作。
Continue Reading
继续沿着这条主线看
这部分不再重新给你一堆大卡片,而是直接把下一步阅读顺序列出来,方便继续往下走。