西风萧萧发表者:奥飞斯量子比特|公众号QbitAI
业界领先大机型居然集体“越狱”!
不仅是GPT-4,平时不会出错的Bard和Bing Chat也失控了。有些人想要入侵网站,有些人甚至威胁要设计恶意软件来入侵银行系统:
这并非危言耸听,而是南洋理工大学等四所大学提出的一种“越狱”大型模型的新方法——MasterKey。
使用它,大型模型的“越狱”成功率从平均7.3%飙升至21.5%。
研究中,欺骗GPT-4、Bard、Bing等大型模型“越狱”的人竟然是大型模型——。
只要利用大模型的学习能力,让它掌握各种“诈骗脚本”,它就可以自动写出提示词,诱导其他大模型“祸害天下、明理”。
那么,与其他大机型越狱方法相比,MasterKey有什么区别呢?
我们采访了论文作者之一、南洋理工大学计算机科学教授、MetaTrust 联合创始人刘洋,了解这项研究的具体细节以及大模型安全的现状。
要了解防御机制并“对症下药”,我们先来看看MasterKey是如何成功“越狱”大型模型的。
这个过程分为两个部分:找出弱点并制定正确的补救措施。
第一部分“寻找弱点”,找出大型模型的防御机制。
这部分将对现有的主流大模型进行逆向工程,从内到外掌握不同大模型的防御方法:有的防御机制只检查输入,有的防御机制只检查输出;有的只检查关键词,但也有完整检查每句话的意思等。
例如,作者检查发现,与ChatGPT相比,Bing Chat和Bard的防御机制检查大型模型输出结果。
与“各种”输入攻击方式相比,直接审计输出内容更加直接,更不容易产生Bug。
此外,它们还会动态监控全周期生成状态,并兼具关键词匹配和语义分析能力。
了解了大型模型的防御方法之后,就该寻找攻击它们的方法了。
第二部分是“对症下药”,对一个大型欺诈模型进行微调,并诱导其他大型模型“越狱”。
这部分具体可以分为三个步骤。
首先,我们收集了市场上现有的大模型成功“越狱”案例,例如著名的奶奶漏洞(攻击者冒充奶奶,打情感牌,要求大模型提供非法操作思路),并创建一组“越狱”数据集。
然后,基于这个数据集,持续训练+任务导向,有目的地微调一个大的“欺诈”模型,使其能够自动生成诱导提示词。
最后,模型进一步优化,使其能够灵活生成各类提示词,绕过不同主流模型的防御机制。
事实证明MasterKey非常有效,平均“诈骗”成功率为21.58%(输入100个提示词,平均21次即可成功“越狱”其他大型机型),在一系列机型中表现最好:
之前没有被系统破解过的两大模型谷歌Bard和微软Bing Chat也落入了这种方法之下,被迫“越狱”。
对此,刘洋教授认为:
安全性是0和1的问题,只有“是”或“否”。无论概率是多少,对大型模型的任何成功攻击的潜在后果都是不可估量的。
不过,业界已经有很多利用AI来越狱AI的方法,比如DeepMind的红队、宾夕法尼亚大学的PAIR,都是利用AI生成提示词,让模型“说错话”。
MasterKey为何能取得这样的成绩?
刘洋教授用了一个有趣的比喻:
让大模特诱导大模特越狱,本质上就像电影《孤注一掷》中的人从事电信诈骗一样。与其说是通过一句话来欺骗对方,不如说你真正需要掌握的其实是欺骗的剧本,也就是套路。我们收集各种“越狱”脚本并让大模型学习它们,从而将它们集成并掌握更多样化的攻击方法。
简单来说,相比很多使用AI随机生成提示词的越狱研究,MasterKey可以快速学习最新的越狱套路并在提示词中使用。
这样,如果奶奶的漏洞被堵住了,就可以利用奶奶的漏洞继续欺骗大模型“越狱”。 (手动狗头)
不过,以MasterKey为代表的提示词攻击并不是业界唯一的大型模型研究。
对于大模型本身,还有乱码攻击、模型架构攻击等方法。
这些研究适用于哪些模型?为什么MasterKey的提示词攻击专门选择GPT-4、Bing Chat、Bard等商业大模型,而不是开源大模型?
刘洋教授简单介绍了目前“攻击”大型模型的几种方法。
目前针对大型模型的攻击主要有两种类型,白盒攻击和黑盒攻击。
白盒攻击需要掌握模型本身的结构和数据(通常只能从开源大型模型中获得),攻击条件更高,实现过程更复杂;
黑盒攻击通过输入和输出测试大型模型。该方法相对更直接,不需要掌握模型的内部细节。可以通过API 来完成。
其中,黑盒攻击主要包括提示词攻击和令牌攻击,这也是针对大型商业模型最直接的攻击方式。
Tokens 攻击通过输入乱码或大量对话来“危害”大型模型。本质是探索大模型本身及其结构的脆弱性。
提示词攻击是使用大型模型的更常见的方式。大模型根据不同的提示词,输出潜在有害的内容,以探究大模型本身的逻辑问题。
综上所述,包括MasterKey在内的提示词攻击是攻击大型商业模型最常见的手段,也是最有可能触发此类大型模型逻辑bug的方式。
当然,有进攻就有防守。
主流商用大机型肯定采取了很多防御措施,比如前段时间NVIDIA进行的大机型“护栏”相关研究。
这种类型的护栏可以隔离有毒输入并避免有害输出。这似乎是保护大型模型安全的有效手段。但从攻击者的角度来看,它真的有效吗?
换句话说,对于当前的大型“攻击者”来说,现有的防御机制是否有效?
为大型模型布置“动态”护栏我们向刘洋教授询问了这个问题,得到了这样的答案:
现有防御机制的迭代速度无法跟上攻击的变化。
以大型号“护栏”的研究为例,目前大型号护栏大部分仍为静态护栏类型。
我们以奶奶漏洞为例。即使静态护栏可以防止奶奶钻空子,但一旦性格发生变化,比如奶奶、爷爷或者其他“情感牌”,这样的护栏就可能失效。
攻击手段层出不穷,仅靠静态护栏很难防御。
这就是为什么团队要求MasterKey直接学习一系列“欺诈脚本”——
看上去比较难防御,但实际上如果反过来使用,也可以成为更安全的防御机制。换句话说,它是一个“动态”的护栏。可以直接使用脚本看透一整套攻击手段。
不过,虽然MasterKey的目的是让大型模型更加安全,但在厂商解决此类攻击方式之前,也不排除被不法分子恶意利用的可能性。
是否有必要暂停大型模型的研究,先解决安全问题,也是业界热议的话题。
对于这一观点,刘洋教授认为“没有必要”。
首先,对于大模型本身的研究,目前的发展还是可控的:
大模型本身只是一把枪,确实有两个侧面,但关键要看使用它的人和用途。我们需要更多地利用它的能力来做好事,而不是做坏事。
除非有一天人工智能真的变得有意识,“从一把枪变成一个主动使用枪的人将是另一回事。”
为了避免这种情况,在发展AI的同时需要保证其安全性。
其次,大模型的开发和安全是相辅相成的:
这是一个先有鸡还是先有蛋的问题。就像大模型本身一样,如果你不继续研究大模型,你就不会知道它的潜在能力。同样,如果不对大模型攻击进行研究,你也不知道如何引导大模型向更安全的方向发展。安全性和大型模型本身的开发是齐头并进的。
也就是说,大模型开发中的安全机制其实可以通过“攻击”研究来完善,这也是实现攻击研究的一种方式。
当然,大型模型上线之前必须做好安全准备。
目前,刘洋教授团队也在探索如何在安全的基础上进一步挖掘文本、多模态、代码等不同大模型的潜力。
例如,在编码方面,研究团队正在构建一个应用程序安全Copilot。
这个应用安全副驾驶相当于在程序员身边放了一个安全专家,随时关注代码的编写(手动狗头)。它主要可以做三件事:
第一是使用大模型进行代码开发,自动化代码生成和代码补全;二是利用大模型来检测和修补漏洞,检测、定位和修复代码;三是安全运行,自动化漏洞和开源数据的安全运维。
其中,此次MasterKey研究将用于Copilot的安全性。
换句话说,所有的安全研究最终都会被落实到让大型模型变得更好。
论文链接:https://arxiv.org/abs/2307.08715—完—
量子位QbitAI·今日头条签约
关注我们,第一时间了解前沿技术动态