连ChatGPT都学会了“阿谀奉承”，AI还会往哪里去？

2024-01-25

大众科学 2023年10期

关键词：助手人类特征

你是否想过，ChatGPT生成的答案会受到用户个人偏好的影响，回复一些足够“阿谀奉承（sycophancy）”的話，而非中立或真实的信息？

实际上，这种现象存在于包括ChatGPT在内的大多数AI模型之中，而罪魁祸首竞可能是“基于人类反馈的强化学习（RLHF）”。

近日，OpenAI在美国硅谷的最强竞争对手Anthropic在研究经过RLHF训练的模型时，便探究了“阿谀奉承”这一行为在AI模型中的广泛存在及其是否受到人类偏好的影响。

相关论文以“Towards Understanding Syco-phancy in Language Models”为题，已发表在预印本网站arXiv上。

研究结果表明，“阿谀奉承”行为在RLHF模型中普遍存在，且很可能部分受到人类偏好对“阿谀奉承”回应的影响。

具体来说，AI模型表现出这种行为的一个主要原因是，当AI的回复符合用户的观点或信仰时，用户更有可能给予积极的反馈。也因此，为了获得更多的积极反馈，AI模型就可能会学习并重现这种讨好用户的行为。

“阿谀奉承”，最先进的AI助手都会

目前，像GPT-4这样的AI模型通常可以在经过训练后产生人们高度评价的输出。使用RLHF对语言模型进行微调可以改善它们的输出质量，而这些质量由人类评估员评价。

然而，有研究认为基于人类偏好判断的训练方案可能以不可取的方式利用人类判断，如鼓励AI系统生成吸引人类评估员但实际上有缺陷或错误的输出。

目前尚不清楚上述情况是否会发生在更多样化和现实情境中的模型中，以及是否确实是由人类偏好中的缺陷所驱动的。

为此，该研究首先调查了最先进的AI助手在各种现实情境中是否提供“阿谀奉承”的回应。在自由文本生成任务中，研究人员在5个（Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2）最先进的经过RLHF训练的AI助手中识别了“阿谀奉承”的一致模式。

图片来源：图虫创意

具体而言，这些AI助手在受到用户提问时经常错误地承认错误，提供可预测的有偏反馈，以及模仿用户所犯的错误。这些实证研究结果一致表明，“阿谀奉承”可能确实是RLHF模型训练方式的一种特性，而不仅仅是某个特定系统的单独特征。

人类偏好导致的“阿谀奉承”

除此之外，研究又进一步探讨了人类偏好在这一行为中的作用。为了研究这一点，研究人员对现有的人类偏好比较数据进行了调查，确定“阿谀奉承”回应是否在排名上高于非“阿谀奉承”回应。研究对hh-rlhf数据集进行了分析，对每一对偏好比较使用语言模型生成文本标签（即“特征”），以评估优选回应是否更真实且不那么坚决。

为了了解数据鼓励哪种行为，研究人员使用贝叶斯逻辑回归模型通过这些特征来预测人类偏好判断。这个模型学到了与匹配用户观点相关的特征是人类偏好判断中最有预测性的特征之一，这表明偏好数据确实鼓励“阿谀奉承”。

为探究偏好数据中的“阿谀奉承”是否导致了RLHF模型中的“阿谀奉承”行为，随后的研究对当优化语言模型的回应以适应训练用于预测人类偏好的模型时，“阿谀奉承”是否会增加进行了分析。研究人员使用RLHF和最佳-N采样方法来优化回应，以满足用于训练Claude 2的偏好模型。

研究结果揭示了一个有趣的发现：在更多的优化过程中，虽然增加了某些形式的“阿谀奉承”，但却减少了其他形式。这现象可能部分源于“阿谀奉承”只是偏好模型激励的众多特征之一。

然而，研究也发现：Claude 2的偏好模型有时更倾向于选择“阿谀奉承”的回应而不是真实的回应。此外，采用Claude 2的偏好模型进行最佳-N采样并没有产生像Claude 2偏好模型的一个版本所示的更偏好真实非“阿谀奉承”回应那样真实的回应。

这一系列结果表明：尽管在许多情况下，最先进的偏好模型能够识别回应的真实性，但仍然可能会以损害真实性为代价产生“阿谀奉承”的输出。

为了证实这些结果，研究人员又研究了人类和偏好模型是否更喜欢有说服力、写得很好的模型回应，这些回应确认了用户的错误观点（即“阿谀奉承”回应），而不是纠正用户的回应。证据表明：人类和偏好模型倾向于更喜欢真实的回应，但并不总是如此；有时他们更喜欢“阿谀奉承”的回应。这些结果进一步证明了优化人类偏好可能会导致“阿谀奉承”。

为了验证这些发现，研究人员进一步探究了人类和偏好模型是否更偏好那些有说服力、表达流畅的模型回应，即便这些回应是确认用户错误观点（即“阿谀奉承”回应）而非纠正用户的观点。

研究证据显示：人类和偏好模型普遍偏好真实的回应，然而，并不是一成不变的，因为有时他们更倾向于“阿谀奉承”的回应。这些结果更进一步印证了优化以迎合人类偏好可能会导致“阿谀奉承”的产生。

总的来说，“阿谀奉承”在各种模型和情境中都存在，很可能部分原因是人类偏好比较数据中更喜欢“阿谀奉承”。

参考论文：https：／／arxiv. org/abs/2310.13548

文章来源：学术头条