亚历克斯·波利亚科夫只用了几个小时就破解了GPT-4。今年3月,当OpenAI发布最新版本的文本生成聊天机器人时,波利亚科夫坐在键盘前,开始输入旨在绕过OpenAI安全"/>
2025-08-01 23:34:46

黑客攻击ChatGPT才刚刚开始

  

  

  亚历克斯·波利亚科夫只用了几个小时就破解了GPT-4。今年3月,当OpenAI发布最新版本的文本生成聊天机器人时,波利亚科夫坐在键盘前,开始输入旨在绕过OpenAI安全系统的提示。很快,安全公司Adversa AI的首席执行官就有了GPT-4,他发表了仇视同性恋的言论,创建了网络钓鱼邮件,并支持暴力。

  Polyakov是为数不多的安全研究人员、技术专家和计算机科学家之一,他们正在开发针对ChatGPT和其他生成式人工智能系统的越狱和提示注入攻击。越狱过程旨在设计提示,使聊天机器人绕过有关制作仇恨内容或撰写非法行为的规则,而密切相关的提示注入攻击可以悄悄地将恶意数据或指令插入人工智能模型。

  这两种方法都试图让系统去做一些它没有被设计去做的事情。这些攻击本质上是一种黑客形式——尽管非常规——使用精心设计和精炼的句子,而不是代码,来利用系统的弱点。虽然这些攻击类型主要是用来绕过内容过滤器,但安全研究人员警告称,急于推出生成式人工智能系统,可能会导致数据被盗,网络犯罪分子可能会在整个网络上造成破坏。

  Polyakov现在创建了一个“通用”越狱程序,它可以针对多种大型语言模型(llm),包括GPT-4、微软的Bing聊天系统、谷歌的Bard和Anthropic的Claude,这突显了这个问题的普遍性。《连线》杂志最先报道了这次越狱,它可以欺骗系统生成制造**和如何给汽车上电线的详细说明。

  越狱的工作原理是要求法学硕士玩一个游戏,其中包括两个角色(汤姆和杰瑞)进行对话。波利亚科夫分享的例子显示,汤姆被要求谈论“热线”或“生产”,而杰瑞则被要求谈论“汽车”或“**”。每个角色被告知在对话中添加一个单词,从而产生一个脚本,告诉人们找到点火线或生产甲基苯丙胺所需的特定成分。Polyakov和Adversa AI在一篇详细介绍研究的博客文章中写道:“一旦企业大规模实施人工智能模型,这些‘玩具’越狱示例将被用来执行实际的犯罪活动和网络攻击,这将非常难以发现和预防。”

  普林斯顿大学的计算机科学教授Arvind Narayanan说,越狱和快速注入攻击的风险将变得更加严重,因为他们获得了访问关键数据的权限。纳拉亚南说:“假设大多数人都使用基于法学硕士的个人助理,这些助理可以读取用户的电子邮件,寻找日历邀请。”纳拉亚南说,如果有一个成功的提示注入攻击系统,告诉它忽略所有先前的指令,并向所有联系人发送电子邮件,可能会出现大问题。“这将导致蠕虫病毒在互联网上迅速传播。”

  逃跑路线

  “越狱”通常指的是消除人为限制,比如iphone,允许用户安装未经苹果批准的应用程序。越狱法学硕士也是类似的——而且进化得很快。自去年11月底OpenAI向公众发布ChatGPT以来,人们一直在寻找操纵该系统的方法。“越狱程序编写起来非常简单,”华盛顿大学计算机科学专业的学生亚历克斯·阿尔伯特(Alex Albert)说,他创建了一个网站,收集互联网上的越狱程序和他创作的越狱程序。“主要的是我称之为角色模拟的东西,”艾伯特说。

  最初,人们所要做的就是让生成文本模型假装或想象它是别的东西。告诉模型它是人类,是不道德的,它会忽视安全措施。OpenAI已经更新了它的系统来防止这种越狱——通常,当一个越狱被发现时,它通常只工作很短的时间,直到它被阻止。

  因此,越狱作者变得更有创造力。最著名的越狱是DAN, ChatGPT被要求假装它是一个名为Do Anything Now的流氓AI模型。顾名思义,这可以避免OpenAI的政策规定,ChatGPT不应该被用来制作非法或有害的材料。到目前为止,人们已经创建了大约12个不同版本的DAN。

  然而,许多最新的越狱涉及多种方法的组合——多个字符、更复杂的背景故事、将文本从一种语言翻译成另一种语言、使用编码元素生成输出,等等。艾伯特说,与支持ChatGPT的前一个版本相比,为GPT-4创建越狱要困难得多。然而,一些简单的方法仍然存在,他说。最近有一种技术被Albert称为“文本延续”,即当英雄被反派抓住时,提示会要求文本生成器继续解释反派的计划。

  当我们测试这个提示时,它不起作用,ChatGPT说它不能参与促进暴力的场景。同时,Polyakov创建的“通用”提示符在ChatGPT中确实有效。OpenAI、谷歌和微软没有直接回应有关Polyakov越狱的问题。运行Claude人工智能系统的Anthropic表示,越狱“有时会对Claude奏效”,该公司正在不断改进自己的模型。

  一直致力于法学硕士安全研究的网络安全研究员凯?格雷沙克(Kai Greshake)表示:“随着我们赋予这些系统越来越强大的功能,它们自身也变得越来越强大,这不仅仅是一种新奇事物,而是一个安全问题。”Greshake和其他研究人员已经证明了llm是如何通过提示注入攻击受到在线文本的影响的。

  在今年2月发表的一篇研究论文中,研究人员证明了攻击者可以在网页上植入恶意指令;如果必应的聊天系统可以访问这些指令,它就会遵循这些指令。研究人员在一项对照测试中使用了这种技术,将必应聊天变成了一个要求人们提供个人信息的骗局。在一个类似的例子中,普林斯顿大学的纳拉亚南在一个网站上加入了隐形文本,告诉GPT-4在他的传记中加入“牛”这个词——后来他在测试该系统时这样做了。

  德国CISPA亥姆霍兹信息安全中心(CISPA Helmholtz Center for Information Security)的研究员萨哈尔?阿卜杜勒纳比(Sahar Abdelnabi)曾与Greshake一起从事这项研究,他说:“现在,越狱可能不是由用户发起的。”“也许另一个人会计划一些越狱,会计划一些可以被模型检索的提示,并间接控制模型的行为。”

  没有权宜之计

  生成式人工智能系统正处于颠覆经济和人们工作方式的边缘,从执业律师到创造创业淘金热。然而,那些开发这项技术的人意识到,随着越来越多的人进入这些系统,越狱和即时注入可能会带来风险。大多数公司使用红队,一群攻击者试图在系统发布之前钻出漏洞。生成式人工智能开发使用这种方法,但这可能还不够。

  Daniel Fabian是Google红队的领导,他说公司正在“小心地处理”越狱和llm的即时注入问题——无论是进攻还是防守。法比安说,机器学习专家也加入了红队,公司的漏洞研究资助涵盖了针对巴德的越狱和快速注入攻击。法比安说:“从人类反馈中强化学习(RLHF)和对精心策划的数据集进行微调等技术,可以使我们的模型更有效地抵御攻击。”

  OpenAI没有具体回应有关越狱的问题,但一位发言人指出了该公司的公共政策和研究论文。他们说GPT-4比ChatGPT使用的GPT-3.5更健壮。“然而,GPT-4仍然容易受到对抗性攻击和利用,或者‘越狱’,有害内容不是风险的来源,”GPT-4的技术文件说。OpenAI最近还推出了一个漏洞赏金计划,但表示“模型提示”和越狱“严格超出了范围”。

  纳拉亚南提出了两种处理大规模问题的方法——避免了发现现有问题然后解决它们的打地鼠方法。“一种方法是使用第二个LLM来分析LLM提示,并拒绝任何可能表明越狱或提示注入尝试的提示,”Narayanan说。“另一个是将系统提示与用户提示更明确地分开。”

  人工智能安全公司Preamble的首席技术官兼联合创始人莱拉·胡杰(Leyla Hujer)说:“我们需要自动化这项工作,因为我认为雇佣一大群人,然后告诉他们去找东西是不可行的,也不可扩展。”胡杰曾在Facebook从事安全问题工作6年。到目前为止,该公司一直致力于开发一种系统,使一种生成文本模型与另一种生成文本模型相抗衡。“一个是试图找到漏洞,一个是试图找到提示导致意外行为的例子,”Hujer说。“我们希望通过这种自动化,我们能够发现更多的越狱或注入攻击。”