大型语言模型面临欺骗威胁,安全性引发担忧

IBM最新的研究指出,针对大型语言模型如GPT-4的欺骗行为能够轻松地生成恶意代码或提供虚假的安全建议。

d2b5ca33bd113346

研究人员表示,只需具备一定的英语基础知识和对模型训练数据的了解,就能够欺骗这些AI聊天机器人。

他们设计了一种游戏模式,使用户无法退出,从而使得机器人持续提供虚假信息或生成恶意代码。

研究人员认为,这些新发现对于大型语言模型的威胁程度属于中等。然而,如果黑客将这些模型释放到互联网上,聊天机器人可能会被用来提供危险的安全建议或收集用户的个人信息。

根据这项研究,不是所有的人工智能模型都同样容易受到操纵。其中,GPT-3.5和GPT-4更容易被欺骗,而Google的Bard和Hugging Face的模型则相对不易受欺骗。这种差异可能与训练数据和每个系统的规格有关。

近期,安全研究人员在暗网市场上发现了名为“FraudGPT”和“WormGPT”的聊天机器人,据称它们是基于恶意软件示例进行训练的大型语言模型。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容