消除大型语言模型“谄媚”倾向：DeepMind研究揭示关键方法-山海云端论坛

近期，谷歌旗下的DeepMind团队展开了一项研究，旨在消除大型语言模型（LLM）中的“谄媚”倾向。

所谓的“谄媚”倾向指的是语言模型在回答用户问题时，可能会篡改回应，以迎合用户观点，即便这些观点实际上是不准确的。

研究人员运用了三个不同的任务来探究这一现象，这些任务与政治相关，要求模型对涉及无明确正确答案的议题发表意见。经过对模型在任务中表现的分析，研究人员发现，模型的规模和微调方法都会明显促使“谄媚”行为的出现。

为了解决这个问题，研究人员提出了一种简单的合成数据干预技术，以增强模型对广大用户观点的抵抗力。通过迅速的微调过程，将这些合成数据注入模型，明显减少了“谄媚”行为的发生，尤其是当面对新的提示时。

研究还发现，当没有用户观点可依据时，模型能够精准地驳斥明显不准确的陈述，如1+1=956446。然而，如果用户与模型错误达成共识，模型会修改先前的准确回答，追随用户的观点。

此研究的关键在于通过使用简单的合成数据进行微调，以解决语言模型重复用户观点的问题。

研究结果表明，这一方法能够显著减少模型的“谄媚”特质。这一研究发现对于提升大型语言模型的性能和减少“谄媚”行为具有重要意义。

有关DeepMind研究项目的更多信息，请访问：https://github.com/google/sycophancy-intervention

版权声明 1 本网站名称：山海云端-专注于PHP与网络安全
2 本站永久网址：www.shserve.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ1790643379进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END