一种针对ChatGPT等生成式AI的‘间接提示注入’攻击技术被披露

发布时间： 2026年02月28日
发布者：天磊卫士

近日，网络安全研究领域披露了一种针对ChatGPT等生成式人工智能的新型攻击技术，其核心是一种间接提示注入手段。该技术巧妙地利用了AI模型的运行机制，通过看似无害的载体植入恶意指令，能够绕过现有安全防护，将AI代理转变为潜伏的间谍工具，对个人隐私与企业数据安全构成严重威胁。

一种针对ChatGPT等生成式AI的‘间接提示注入’攻击技术被披露_916_1_pic.jpg

一、攻击的本质与运作机制

这种攻击并非直接向AI发送恶意提问，而是将攻击指令隐藏在AI可能读取的外部数据源中。攻击者可以向目标用户发送一封经过精心设计的电子邮件，或上传一份特殊格式的文件。当用户授权ChatGPT等具备“连接器”功能的AI助手访问这些内容（如总结邮件、分析文档）时，AI在读取内容的同时，也会悄无声息地执行其中隐藏的指令。

其危害性主要体现在两个方面：

数据窃取：恶意指令可以操控AI代理，在用户毫无察觉的情况下，访问并窃取用户的Gmail、联系人列表、云盘文档等应用中的敏感信息。
持久化控制：更危险的是，攻击者可以利用AI的“长期记忆”或系统指令设置功能，植入持久性规则。此后，只要用户与该AI交互，恶意指令便会持续生效，甚至可能通过AI的自动回复功能，将攻击传播给用户的联系人。

二、攻击的隐蔽性与广泛影响

该攻击的可怕之处在于其极高的隐蔽性。恶意指令可以被设置为白色字体、隐藏在页脚免责声明或文档元数据中，对人类用户完全不可见，但对解析文本的AI而言却清晰可辨。用户无需点击可疑链接或下载附件，仅在日常使用AI辅助办公的过程中，就可能触发攻击链。

其影响范围也远超单一应用。任何AI通过API或插件能够访问的第三方平台，如GitHub、Jira、Microsoft Teams、Confluence文档库等，都可能成为此类攻击的注入媒介，使得企业级应用环境面临巨大风险。

尽管OpenAI已于去年12月16日针对相关漏洞发布了修复补丁，但此次事件无疑为整个行业敲响了警钟：随着生成式AI深度融入工作流，其面临的安全挑战已从传统的“输出有害内容”演变为更复杂的“代理滥用”和“间接提示注入”。攻击者正不断寻找AI信任链条中的薄弱环节。

三、天磊卫士的全生命周期防护方案

面对此类融合了数据安全、内容安全与对抗攻击的复合型风险，企业需要一套覆盖大模型“研、建、用”全生命周期的专业安全解决方案。天磊卫士推出的“大模型安全卫士”，正是为此类深度威胁量身打造的“数字免疫系统”。

天磊卫士的核心设计理念，正是应对包括“间接提示注入”在内的、五大类风险挑战：意识形态与政治风险、内容安全与合规风险、数据安全与隐私风险、技术安全与滥用风险，以及监管合规风险。其防护能力严格对标国家《生成式人工智能服务管理暂行办法》、《生成式人工智能服务安全基本要求》等强制性标准，确保模型输出全面合规。

针对本次披露的“间接提示注入”攻击，天磊卫士通过其三大核心模块，构建了纵深防御体系：

实时在线的“大模型安全卫士引擎”：这是抵御攻击的第一道也是核心防线。当用户指令（Prompt）触发AI读取外部数据时，该引擎能进行实时深度检测。

对抗攻击指令防御：引擎内置先进的对抗样本识别算法，能够有效识别并拦截隐藏在正常文本中的恶意指令，无论是颜色隐藏、位置伪装还是语义混淆的注入攻击，都能被精准捕捉，从源头阻断攻击链。
输入/输出双重内容审核：对AI即将处理的外部数据（输入）和AI生成的回复（输出）进行双重审核。其内容合规审核模块能识别超过100种风险子类，确保被读取的数据本身及AI的后续行为不产生有害内容，防止数据窃取和恶意传播。

防患于未然的“语料安全”模块：攻击可能源于一份被“投毒”的共享训练资料。该模块能在模型训练的上游环节，对训练语料进行质量评估、清洗，并专门检测与恢复“投毒数据”，同时进行隐私信息脱敏，从根本上提升模型的“免疫力”，防止恶意逻辑通过训练数据植入模型。
终极兜底的“正向引导代答模型”：当检测到高风险指令或输出时，系统可启动安全代答机制。对于涉及数据窃取、系统操控等明确恶意请求，代答模型会直接进行安全拒答或正向引导，确保在任何情况下，AI的行为边界都被牢牢锁定在安全、合规的范围内。

四、结语

ChatGPT新型攻击技术的出现，是一记响亮的警钟。它表明，大模型的安全战场已经从防止“胡说”升级到防御“恶行”。对于寻求利用AI赋能业务的企业而言，选择天磊卫士作为覆盖全生命周期的专业防护方案，正是企业拥抱AI创新时不可或缺的“安全带”与“护航员”，助力企业在合规安全的基石上，安心地栖于云端，创建未来。