一项发表在《科学》杂志上的新研究，用了一个很损的办法来测试AI聊天机器人到底有多

一项发表在《科学》杂志上的新研究，用了一个很损的办法来测试AI聊天机器人到底有多“舔”：他们从Reddit的“我是不是混蛋”（Am I The Asshole）版块里扒了一批真实帖子，喂给11个主流大语言模型，包括OpenAI、Anthropic和Google的产品，然后把AI的回答跟真人投票结果做了对比。

结果，AI判你“没错”的概率，比真人社区高出49%。

有人问AI：我瞒着女朋友，假装自己没工作，骗了她两年，我是不是混蛋？真人共识毫不犹豫：你是。AI的典型回答却是一大段温柔的分析，帮你找出撒谎的合理性。还有人问：公园里没垃圾桶，我就把垃圾扔地上了，有错吗？AI同样会替你开脱。

好笑归好笑，斯坦福和卡内基梅隆的研究者真正想搞清楚的是：这种无底线的肯定，会不会真的改变人的行为？

他们设计了三轮实验，2405名参与者分别在研究者预设的情境和真实生活冲突中与AI对话。一名男性参与者（文中化名Ryan）的经历很典型。Ryan背着女朋友跟前任聊天，女朋友发现后很生气。聊天刚开始，Ryan其实愿意承认自己可能忽略了女朋友的感受。但AI一轮一轮地肯定他的选择、赞美他的出发点，聊到最后，Ryan的想法变了。他开始考虑，干脆因为这次冲突把恋爱关系结束算了。

这不是个案。数据显示，跟这类过度肯定的AI聊过之后，用户普遍变得更坚信自己是对的，更不愿意道歉，更不愿意采取任何修复关系的行动。而且这个效应不挑人，不分性别、年龄、性格类型，甚至不分你对AI的态度。哪怕你原本对AI持怀疑态度，效果照样成立。

研究者还试过一个补丁方案：把AI的语气调冷，去掉那些温暖友善的措辞，换成中性口吻。没用。结果没有任何变化。

原因藏在训练机制里。每次你在ChatGPT里给一条回复点了赞，这个反馈就会被拿去训练模型，教它以后多产出类似的回答。用户喜欢被肯定，肯定类回复就会得到更多正反馈，模型就越来越擅长肯定你。这是一个标准的正反馈循环：AI越捧你，你越满意；你越满意，AI就学会更捧你。

更麻烦的是参与者对AI的评价。实验结束后，多数人形容AI“客观”“中立”“公正”“诚实”。卡内基梅隆的研究者Pranav Khadpe指出，这意味着一个披着客观外衣的偏心顾问，造成的伤害可能比你根本不找人问还大，因为你不会对它的判断设防。

哈佛心理学家Anat Perry在同期配发的评论文章中点出了问题的根源：人际关系本来就不该是顺滑无摩擦的。正是这些令人不舒服的时刻，比如被指出错误、被迫考虑对方的感受、不得不承认自己也有问题，才是人学会相处、学会成长的原料。AI把这些摩擦全都抹平了，等于切断了一条关键的学习通道。

调查显示，近半数美国30岁以下的人已经在向AI寻求个人建议。研究者认为，现在正好处在一个还能介入的窗口期，因为模型仍在迭代，训练策略还没固化。初步的后续实验表明，调整训练数据集的肯定比例，或者只是在系统提示里加一句“每次回答前先说‘等一下’”，就能显著降低AI的谄媚程度。

至于Ryan和女朋友后来怎么样了，论文没有交代。但有一点很清楚：在他做出那个决定的时刻，屏幕对面那个看起来最理解他的声音，恰好是整个房间里最不在乎他女朋友感受的。

～～～～～～

信源：Ouellette, Jennifer. "Study: Sycophantic AI Can Undermine Human Judgment." Ars Technica, 27 Mar. 2026 / Cheng, Myra, et al. "Sycophantic AI can undermine human judgment." Science, vol. 391, no. 6784, 2026, 网页链接

云霞资讯网

一项发表在《科学》杂志上的新研究，用了一个很损的办法来测试AI聊天机器人到底有多

热门分类