研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容潜江市某某系统技术维修站便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功潜江市某某系统技术维修站实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
昨天21日),南水北调东线工程2025至2026年度冰期输水正式启动,预计于2026年2月结束。“十四五”期间,东线工程累计冰期调水约9.61亿立方米,确保了极端寒潮天气下的供水稳定,保障了沿线地
...[详细]
-
网易体育10月6日报道:10月6日晚,云南玉昆在中甲第26轮主场2-0战胜上海嘉定汇龙,提前4轮冲超成功,实现了3年从中冠到中超的四级跳。云南玉昆成为云南足球历史上首支中超球队,云南足球时隔21年再次
...[详细]
-
中网出局后,郑钦文武网首秀确定!最快下周四再遇穆霍娃,躲不开
总分0-2出局!郑钦文输给穆霍娃之后,无缘首次晋级中网女单决赛,未能创造历史,这场半决赛一度摔倒导致手指受伤,郑钦文带着遗憾告别了本届中网赛事,接下来将马不停蹄前往武汉参加又一项WTA的1000级别赛
...[详细]
-
中网出局后,郑钦文武网首秀确定!最快下周四再遇穆霍娃,躲不开
总分0-2出局!郑钦文输给穆霍娃之后,无缘首次晋级中网女单决赛,未能创造历史,这场半决赛一度摔倒导致手指受伤,郑钦文带着遗憾告别了本届中网赛事,接下来将马不停蹄前往武汉参加又一项WTA的1000级别赛
...[详细]
-
【环球网报道】俄罗斯总统普京于12月19日举行年度记者会。综合塔斯社等媒体报道,记者会刚开始,普京就俄乌冲突作出最新表态。 塔斯社称,普京表示,俄方已准备好基于他2024年6月在俄外交部讲话时提
...[详细]
-
直播吧10月06日讯 西甲第9轮,阿拉维斯vs巴塞罗那。法蒂在替补登场后两次打门均被扑出↓第67分钟法蒂换下亚马尔↓
...[详细]
-
直播吧10月6日讯 英超第7轮,切尔西主场1-1战平诺丁汉森林。本场比赛,库库雷利亚和福法纳终场前吃到黄牌。据切尔西跟队记者Kinsella,库库雷利亚和福法纳将因累计5张黄牌停赛,错过10月20日切
...[详细]
-
演员杨晓丹:颜值高,演技好,和傅艺伟离婚30多年,如今怎样了?
现在娱乐圈的小鲜肉就像雨后春笋一样,一个接着一个地冒出来,让人眼花缭乱,目不暇接。虽说圈里的男明星们长相都是个顶个的出挑,堪称是人中龙凤,但知人知面不知心,近年来有些品行有亏的男明星们接二连三地露出了
...[详细]
-
【环球网报道】俄罗斯总统普京于12月19日举行年度记者会。综合塔斯社等媒体报道,记者会刚开始,普京就俄乌冲突作出最新表态。 塔斯社称,普京表示,俄方已准备好基于他2024年6月在俄外交部讲话时提
...[详细]
-
周涛、董卿的素颜照,才发现原来真正的美人,不在皮、也不在骨!
之前一张央视主持人的大合照,引起了观众朋友的回忆杀。在这张照片中出现的四位主持人,如今只有张泽群还在央视。其他的三位,朱军、董卿、周涛,将很难再看到他们的影子了。可想而知,这张照片对于央视观众的杀伤力
...[详细]

看不见的“沉默杀手” 这些地方要当心!
印度与美国签协议加强电池关键矿物供应链合作
朝鲜宣布完全切断与韩国连接的铁路与公路
中国男篮首位归化球员李凯尔已变更国籍?不属实