一种针对ChatGPT等生成式AI的‘间接提示注入’攻击技术被披露

一种针对ChatGPT等生成式AI的‘间接提示注入’攻击技术被披露

近日,网络安全研究领域披露了一种针对ChatGPT等生成式人工智能的新型攻击技术,其核心是一种间接提示注入手段。该技术巧妙地利用了AI模型的运行机制,通过看似无害的载体植入恶意指令,能够绕过现有安全防护,将AI代理转变为潜伏的间谍工具,对个人隐私与企业数据安全构成严重威胁。

一种针对ChatGPT等生成式AI的‘间接提示注入’攻击技术被披露_916_1_pic.jpg

一、攻击的本质与运作机制

这种攻击并非直接向AI发送恶意提问,而是将攻击指令隐藏在AI可能读取的外部数据源中。攻击者可以向目标用户发送一封经过精心设计的电子邮件,或上传一份特殊格式的文件。当用户授权ChatGPT等具备“连接器”功能的AI助手访问这些内容(如总结邮件、分析文档)时,AI在读取内容的同时,也会悄无声息地执行其中隐藏的指令。

其危害性主要体现在两个方面:

  1. 数据窃取:恶意指令可以操控AI代理,在用户毫无察觉的情况下,访问并窃取用户的Gmail、联系人列表、云盘文档等应用中的敏感信息。

  2. 持久化控制:更危险的是,攻击者可以利用AI的“长期记忆”或系统指令设置功能,植入持久性规则。此后,只要用户与该AI交互,恶意指令便会持续生效,甚至可能通过AI的自动回复功能,将攻击传播给用户的联系人。

二、攻击的隐蔽性与广泛影响

该攻击的可怕之处在于其极高的隐蔽性。恶意指令可以被设置为白色字体、隐藏在页脚免责声明或文档元数据中,对人类用户完全不可见,但对解析文本的AI而言却清晰可辨。用户无需点击可疑链接或下载附件,仅在日常使用AI辅助办公的过程中,就可能触发攻击链。

其影响范围也远超单一应用。任何AI通过API或插件能够访问的第三方平台,如GitHub、Jira、Microsoft Teams、Confluence文档库等,都可能成为此类攻击的注入媒介,使得企业级应用环境面临巨大风险。

尽管OpenAI已于去年12月16日针对相关漏洞发布了修复补丁,但此次事件无疑为整个行业敲响了警钟:随着生成式AI深度融入工作流,其面临的安全挑战已从传统的“输出有害内容”演变为更复杂的“代理滥用”和“间接提示注入”。攻击者正不断寻找AI信任链条中的薄弱环节。

三、天磊卫士的全生命周期防护方案

面对此类融合了数据安全、内容安全与对抗攻击的复合型风险,企业需要一套覆盖大模型“研、建、用”全生命周期的专业安全解决方案。天磊卫士推出的“大模型安全卫士,正是为此类深度威胁量身打造的“数字免疫系统”。

天磊卫士的核心设计理念,正是应对包括“间接提示注入”在内的、五大类风险挑战:意识形态与政治风险、内容安全与合规风险、数据安全与隐私风险、技术安全与滥用风险,以及监管合规风险。其防护能力严格对标国家《生成式人工智能服务管理暂行办法》、《生成式人工智能服务安全基本要求》等强制性标准,确保模型输出全面合规。

针对本次披露的“间接提示注入”攻击,天磊卫士通过其三大核心模块,构建了纵深防御体系:

  1. 实时在线的“大模型安全卫士引擎”:这是抵御攻击的第一道也是核心防线。当用户指令(Prompt)触发AI读取外部数据时,该引擎能进行实时深度检测。

    • 对抗攻击指令防御:引擎内置先进的对抗样本识别算法,能够有效识别并拦截隐藏在正常文本中的恶意指令,无论是颜色隐藏、位置伪装还是语义混淆的注入攻击,都能被精准捕捉,从源头阻断攻击链。

    • 输入/输出双重内容审核:对AI即将处理的外部数据(输入)和AI生成的回复(输出)进行双重审核。其内容合规审核模块能识别超过100种风险子类,确保被读取的数据本身及AI的后续行为不产生有害内容,防止数据窃取和恶意传播。

  2. 防患于未然的“语料安全”模块:攻击可能源于一份被“投毒”的共享训练资料。该模块能在模型训练的上游环节,对训练语料进行质量评估、清洗,并专门检测与恢复“投毒数据”,同时进行隐私信息脱敏,从根本上提升模型的“免疫力”,防止恶意逻辑通过训练数据植入模型。

  3. 终极兜底的“正向引导代答模型”:当检测到高风险指令或输出时,系统可启动安全代答机制。对于涉及数据窃取、系统操控等明确恶意请求,代答模型会直接进行安全拒答或正向引导,确保在任何情况下,AI的行为边界都被牢牢锁定在安全、合规的范围内。

5T091043.jpg

四、 结语

ChatGPT新型攻击技术的出现,是一记响亮的警钟。它表明,大模型的安全战场已经从防止“胡说”升级到防御“恶行”。对于寻求利用AI赋能业务的企业而言,选择天磊卫士作为覆盖全生命周期的专业防护方案,正是企业拥抱AI创新时不可或缺的“安全带”与“护航员”,助力企业在合规安全的基石上,安心地栖于云端,创建未来。