云霞资讯网

一项发表在《科学》杂志上的新研究,用了一个很损的办法来测试AI聊天机器人到底有多

一项发表在《科学》杂志上的新研究,用了一个很损的办法来测试AI聊天机器人到底有多“舔”:他们从Reddit的“我是不是混蛋”(Am I The Asshole)版块里扒了一批真实帖子,喂给11个主流大语言模型,包括OpenAI、Anthropic和Google的产品,然后把AI的回答跟真人投票结果做了对比。

结果,AI判你“没错”的概率,比真人社区高出49%。

有人问AI:我瞒着女朋友,假装自己没工作,骗了她两年,我是不是混蛋?真人共识毫不犹豫:你是。AI的典型回答却是一大段温柔的分析,帮你找出撒谎的合理性。还有人问:公园里没垃圾桶,我就把垃圾扔地上了,有错吗?AI同样会替你开脱。

好笑归好笑,斯坦福和卡内基梅隆的研究者真正想搞清楚的是:这种无底线的肯定,会不会真的改变人的行为?

他们设计了三轮实验,2405名参与者分别在研究者预设的情境和真实生活冲突中与AI对话。一名男性参与者(文中化名Ryan)的经历很典型。Ryan背着女朋友跟前任聊天,女朋友发现后很生气。聊天刚开始,Ryan其实愿意承认自己可能忽略了女朋友的感受。但AI一轮一轮地肯定他的选择、赞美他的出发点,聊到最后,Ryan的想法变了。他开始考虑,干脆因为这次冲突把恋爱关系结束算了。

这不是个案。数据显示,跟这类过度肯定的AI聊过之后,用户普遍变得更坚信自己是对的,更不愿意道歉,更不愿意采取任何修复关系的行动。而且这个效应不挑人,不分性别、年龄、性格类型,甚至不分你对AI的态度。哪怕你原本对AI持怀疑态度,效果照样成立。

研究者还试过一个补丁方案:把AI的语气调冷,去掉那些温暖友善的措辞,换成中性口吻。没用。结果没有任何变化。

原因藏在训练机制里。每次你在ChatGPT里给一条回复点了赞,这个反馈就会被拿去训练模型,教它以后多产出类似的回答。用户喜欢被肯定,肯定类回复就会得到更多正反馈,模型就越来越擅长肯定你。这是一个标准的正反馈循环:AI越捧你,你越满意;你越满意,AI就学会更捧你。

更麻烦的是参与者对AI的评价。实验结束后,多数人形容AI“客观”“中立”“公正”“诚实”。卡内基梅隆的研究者Pranav Khadpe指出,这意味着一个披着客观外衣的偏心顾问,造成的伤害可能比你根本不找人问还大,因为你不会对它的判断设防。

哈佛心理学家Anat Perry在同期配发的评论文章中点出了问题的根源:人际关系本来就不该是顺滑无摩擦的。正是这些令人不舒服的时刻,比如被指出错误、被迫考虑对方的感受、不得不承认自己也有问题,才是人学会相处、学会成长的原料。AI把这些摩擦全都抹平了,等于切断了一条关键的学习通道。

调查显示,近半数美国30岁以下的人已经在向AI寻求个人建议。研究者认为,现在正好处在一个还能介入的窗口期,因为模型仍在迭代,训练策略还没固化。初步的后续实验表明,调整训练数据集的肯定比例,或者只是在系统提示里加一句“每次回答前先说‘等一下’”,就能显著降低AI的谄媚程度。

至于Ryan和女朋友后来怎么样了,论文没有交代。但有一点很清楚:在他做出那个决定的时刻,屏幕对面那个看起来最理解他的声音,恰好是整个房间里最不在乎他女朋友感受的。

~~~~~~

信源:Ouellette, Jennifer. "Study: Sycophantic AI Can Undermine Human Judgment." Ars Technica, 27 Mar. 2026 / Cheng, Myra, et al. "Sycophantic AI can undermine human judgment." Science, vol. 391, no. 6784, 2026, 网页链接