网络安全公司0Din的研究员Marco Figueroa发现了一种新型GPT越狱攻击手法,成功突破了GPT-4o内置的「安全护栏」措施,能够使其编写出恶意攻击程序。研究员通过将恶意指令转化为十六进制的方法,绕过GPT-4o的防护,让GPT-4o解码运行用户的恶意指令。研究人员指出,GPT系列模型缺乏对上下文的理解能力,无法评估每一步在整体情境下的安全性,因此许多黑客实际上早已利用GPT模型这一特点让模型进行各种不当操作。相关示例表明AI模型的开发者需要加强模型的安全防护,以防范此类基于上下文理解式的攻击。