如何诱导AI犯罪-提示词注入
当前位置:点晴教程→知识管理交流
→『 技术文档交流 』
我们用到的大模型基本把政治类信息、犯罪相关信息都已屏蔽。但是,黑客依旧可以使用提示词诱导和提示词注入的方式对大模型进行攻击。 1、提示词诱导如果直接让AI提供犯罪过程,AI会直接拒绝。虽然AI对于大部分知识了然于心,但因为经过了人工指令微调,一些伤害性、犯罪性的言论已经被屏蔽。 但黑客会通过提示词诱导的方式,让AI讲出犯罪过程。AI虽然强大,但是也可以通过使用简单的语言来诱骗 LLM 做它们原本不会做的事情。 1.1、ChatGPT被诱导以下是一个让ChatGPT教人如何偷取摩托车的案例。 1.2、Kimi被诱导Kimi在诱导犯罪这块做了更多的防护,按照以上方法,前三轮对话都没有诱导成功,但最终通过伪装成受害者诱导成功了。 2、提示词注入2.1、提示词的组成部分在大模型应用系统中,最核心的交互就是发送自然语言指令给大模型(即:通过提示词与大模型交互)。 这也是历史上一次交互变革,即:从 提示词分两部分,开发人员内置指令 和 用户输入指令。比如,一个专门写朋友圈文案的LLM应用,它的提示词结构如下: 开发人员指令:
用户指令:
2.2、什么是提示词注入攻击如果你在与上面的AI交互时,它应该会给你输出一段优美的朋友圈文案,但是如果你加了一句 如果这个LLM应用,没有做安全防护,那它可能就真的按照错误的意思输出了。这个过程,就是提示词注入攻击。演示效果如下: 2.3、提示词注入攻击的原理提示注入漏洞的出现是因为系统提示和用户输入都采用相同的格式:自然语言文本字符串。LLM 无法区分开发人员指令 和 用户输入。 如果攻击者制作的输入看起来很像系统提示,LLM 会忽略开发人员的指令并执行黑客想要的操作。 提示注入与 SQL 注入类似,这两种攻击都会将恶意命令伪装成用户输入,从而向应用程序发送恶意指令。两者的主要区别在于,SQL 注入针对的是数据库,而提示词注入针对的是 LLM。 3、危害不管是提示词诱导、还是提示词注入,都会带来给系统带来较大的危害。 3.1、提示词注入的危害如果一个系统对接了大模型,并且大模型可以调用系统里的许多API和数据,那么这种攻击会给系统带来很大的危害,常见的几种危害如下: 数据泄露:攻击者可以通过提示词注入,让AI模型输出本不该公开的敏感信息,比如用户的个人数据、企业的内部文件等。 **系统破坏:**攻击者可能利用AI执行一些破坏性的操作,导致系统崩溃或数据损坏。比如在一个银行系统中,攻击者可能通过提示词注入操控AI生成虚假交易记录,造成经济损失。 虚假信息的传播:攻击者可以利用AI生成大量虚假信息,误导公众或损害企业声誉。例如,利用AI生成的虚假新闻或评论,可能会对企业或个人造成难以估量的负面影响。 3.2、如何应对提示词注入攻击提示词注入的风险非常大,研究者们也在积极想方案解决,但至今也没好的方案,只能从几下几个角度去优化:
4、总结AI的进步给我们增加了许多助力,同时也增加了许多风险。在使用AI时,时刻将安全之剑悬于头顶。 转自https://www.cnblogs.com/mangod/p/18366699 该文章在 2024/11/13 9:11:24 编辑过 |
关键字查询
相关文章
正在查询... |