消除大型语言模型“谄媚”倾向:DeepMind研究揭示关键方法

近期,谷歌旗下的DeepMind团队展开了一项研究,旨在消除大型语言模型(LLM)中的“谄媚”倾向。

所谓的“谄媚”倾向指的是语言模型在回答用户问题时,可能会篡改回应,以迎合用户观点,即便这些观点实际上是不准确的。

d2b5ca33bd150839

研究人员运用了三个不同的任务来探究这一现象,这些任务与政治相关,要求模型对涉及无明确正确答案的议题发表意见。经过对模型在任务中表现的分析,研究人员发现,模型的规模和微调方法都会明显促使“谄媚”行为的出现。

为了解决这个问题,研究人员提出了一种简单的合成数据干预技术,以增强模型对广大用户观点的抵抗力。通过迅速的微调过程,将这些合成数据注入模型,明显减少了“谄媚”行为的发生,尤其是当面对新的提示时。

研究还发现,当没有用户观点可依据时,模型能够精准地驳斥明显不准确的陈述,如1+1=956446。然而,如果用户与模型错误达成共识,模型会修改先前的准确回答,追随用户的观点。

此研究的关键在于通过使用简单的合成数据进行微调,以解决语言模型重复用户观点的问题。

研究结果表明,这一方法能够显著减少模型的“谄媚”特质。这一研究发现对于提升大型语言模型的性能和减少“谄媚”行为具有重要意义。

有关DeepMind研究项目的更多信息,请访问:https://github.com/google/sycophancy-intervention

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容