Salesforce AI研究院揭秘：为什么AI越聪明，越容易说大话？

这项由Salesforce人工智能研究院主导的研究，以预印本形式于2026年4月18日发布，论文编号为arXiv:2604.16830。对AI系统的可信度感兴趣的读者，可通过该编号在arXiv平台找到完整论文。

当你向一个AI助手提问时，它除了给出答案，通常还会告诉你它有多大把握。有的AI会说"我有90%的把握认为答案是X"，有的则以更含蓄的方式表达自信。然而，Salesforce研究院的这项研究揭示了一个令人不安的事实：这些AI说出来的"把握"，往往是一种幻觉。

数学家陶哲轩曾在《大西洋》杂志的一篇文章中感叹："AI工具无法准确评估自己的自信程度，这大大降低了它们的实用性。我们希望AI能更诚实。"这句话精准描述了今天AI领域的一个核心困境——AI越来越聪明，却没有随之变得越来越诚实。

研究团队把这个现象称为"误校正的规模定律"，意思是：当你让AI变得更强大时，它会系统性地、几乎必然地变得过度自信。不管是GPT、Claude、Gemini这样的顶尖商业产品，还是DeepSeek、Kimi这样的开源模型，都无一例外地陷入了这个陷阱。更令人担忧的是，把模型做得更大、更强，根本解决不了这个问题。

为了破解这个困局，研究团队提出了一个名为"校准感知在线策略蒸馏"（CaOPD）的新方法，并用实验证明了一件以前很多人觉得不可能的事：让AI保持能力的同时变得更诚实，这两件事并不矛盾。

一、AI为什么会说大话？读懂"特权信息"的陷阱

要理解这个问题，先设想一个场景：一名学生正在考试，考场里有两个角色——一个"开卷的监考老师"和一个"闭卷的学生"。老师可以翻阅所有参考书，看到标准答案；学生只能凭自己的记忆作答。现在，如果让学生去模仿老师的语气和自信程度，会发生什么？学生会学到老师那种"我确信无疑"的口吻，但他并没有老师手上的那些参考书。一旦上了真正的考场，他就会用同样自信的语气说出很多错误答案。

这正是当前AI训练方式的核心问题所在。训练大型语言模型时，最流行的方法叫做"在线策略蒸馏"（On-Policy Distillation，简称OPD）。这种方法的运作机制是这样的：同一个模型扮演两个角色，一个是"老师角色"，可以看到特殊的辅助信息，比如正确答案、专家示范或者来自外部验证系统的反馈；另一个是"学生角色"，只能看到用户提出的问题，就像真实使用场景中的AI一样。训练过程中，学生角色努力学习老师角色的回答方式，包括措辞、逻辑推理，以及对自己有多大把握的表达。

问题就在这里。老师角色因为看到了正确答案，会用非常确定的方式表达；学生角色把这种确定的口吻学到骨子里，但它在真实使用时并没有那些辅助信息。更糟糕的是，训练数据通常都是成功的、高质量的示范，那些失败的、不确定的案例几乎从不出现。这就像一个学生只见过老师做题全对的样子，从来没见过老师犯错或说"我不确定"——它当然会以为自信就是应有的状态。

研究团队用三条数学命题严格证明了这个过程必然导致过度自信，逐一追踪了从训练到推理过程中信心是如何被系统性扭曲的。

第一条命题揭示了"不可弥合的信息鸿沟"：老师角色看到正确答案后所表达的信心，从数学上就不可能被没有看到答案的学生角色完整复制。即便学生做得再好，它能表达的最合理的信心，也只是基于自身能力的客观胜率，而不是老师那种"因为看了答案所以笃定"的信心。强行让学生模仿老师的信心，必然引入系统性偏差。

第二条命题解释了"熵塌缩"现象：当老师有了辅助信息，它的推理路径会变得非常确定，不确定性大幅降低。训练过程强迫学生用自己的概率分布去匹配老师的高度确定分布，这就像用一把扇形的羽毛去摹仿一把锋利的刀——学生为了匹配，只能把自己的分布也人为地压缩成"刀尖"形状，即使它内心其实有很多不确定性。

第三条命题揭示了"乐观偏差"：由于训练数据通常是成功案例，学生只学过"赢家的语气"。当它面对困难的、自己实际上回答不好的问题时，它没有学过如何表达怀疑，只会继续沿用那套自信满满的口吻。

三条命题加在一起，构成了一幅完整的图景：每一步都在系统性地、不可避免地推着AI走向过度自信。

二、规模越大，问题越严重——数据说话

研究团队没有停留在理论层面，而是拿出了大量实验数据来验证这个问题的普遍性。他们对12个顶尖的大型语言模型进行了评估，其中包括来自OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列，以及DeepSeek、Kimi、Qwen等开源模型。评测域是科学问答题，要求模型在给出答案的同时，说出自己有多大把握。

结果令人警觉。在精度（准确回答问题的比例）和信心（模型声称自己有多大把握）之间，几乎所有模型都存在巨大的差距，而且差距的方向几乎清一色是"信心远远超过实际准确率"。Gemini-2.5-Flash的平均信心接近1.0（即100%确定），但实际准确率只有57.6%；DeepSeek-V3.1的平均信心同样高达1.0，实际准确率56.7%。这意味着这些模型在大约一半的题目上都说错了，却声称自己100%确定。

更耐人寻味的是，把模型参数规模从小做到大，这个问题并不会自然消失。研究团队对Qwen3系列从0.6B参数到32B参数的所有版本进行了同样的测试，发现在标准训练方式下，不管模型有多大，平均信心都卡在接近1.0的位置纹丝不动。换句话说，更聪明的模型，答对的题目确实更多，但它嘴上表达出来的"确定程度"跟小模型一样不靠谱。把规模当作解药，完全没用。

现有的尝试也让人失望。研究团队注意到，有些研究者曾尝试通过强化学习来惩罚过度自信的模型，比如RLCR和CAR这类方法——如果模型说得太确定但又答错了，就扣分。这种方法确实能让模型的信心数值往下降，但代价惨重：模型的答题准确率也跟着大幅下滑。在科学问答任务中，使用RLCR的模型准确率从80.6%跌到65.8%，使用CAR的模型跌至61.6%。这就像用一种药治好了"说大话"的毛病，却同时把"做对事情"的能力也损害了。鱼和熊掌，真的难以兼得——至少在之前的方法里是这样。

三、CaOPD的破局之道：把"教什么"和"有多大把握"彻底分开

Salesforce的研究团队认为，之前的方法走错了方向。强化学习惩罚方案治标不治本，它试图在训练已经完成之后再去修正信心，却忽视了问题的根源——训练信号本身就是错的。

研究团队的核心洞察是：AI回答问题的"能力"和"对自己有多大把握的判断"，本质上是两件事，应该分别学习，而不能混在一起。这就像一个厨师，"做出好菜的技术"和"准确预判今天这道菜会不会好吃的判断力"，是两种不同的能力。当前的训练方式把两者捆绑在一起，导致任何改变信心的操作都会连带损伤能力。

CaOPD的解决方案优雅而简洁，分三步走。

第一步，估算真实胜率。在训练时，对于每一道题，让模型用它自己的能力（不看任何辅助信息）独立尝试多次，比如尝试8次。然后用一个客观的评判标准检查每次尝试是否正确，用正确次数除以总次数，得到一个经验性的成功率。比如8次尝试中答对了5次，胜率就是5/8=0.625。这个数字代表的是"模型在真实使用时、不借助任何外部信息的条件下"的实际水平，是诚实的、基于现实的估计。

第二步，替换信心标签。在准备训练数据时，把模型原本会表达的信心数值，替换成刚才计算出来的经验胜率。比如某道题上，如果没有CaOPD，模型会被训练成说"我有1.0（100%）的把握"；有了CaOPD，这个标签被改成"0.625"。同时，给老师角色提供的辅助信息里，信心部分也做同样的替换。这样，无论是学生学习的目标，还是老师提供的参考，在信心这个维度上都变成了符合实际的数字。

第三步，照常进行推理能力的蒸馏。对于"如何推理、如何解题"这部分内容，CaOPD完全不作改动，老老实实让学生跟着老师学。这一步和原来的训练方式没有任何区别。

通过这三步，CaOPD实现了一个精妙的解耦：推理能力照样从老师那里高效学习，而信心表达则独立地锚定在模型自身真实能力上。两件事各司其职，互不干扰。

研究团队还指出了一个实际操作层面的好消息：在SDPO这种流行的训练框架下，第一步所需的多次尝试在训练流程中本来就会做，CaOPD只是把这些已有的尝试结果多利用了一次，几乎不增加额外的计算成本。在训练过程的计算开销上，CaOPD和原来的方法几乎没有差别，每个训练步骤的耗时基本相同。

四、实验结果：能力没掉，信心终于诚实了

研究团队在两个截然不同的任务场景上测试了CaOPD：科学问答（化学题）和工具使用（让AI调用API接口完成任务）。测试的基础模型是Qwen3-8B和Olmo-3-7B-Instruct这两个主流开源模型。

在最直观的"过度自信程度"对比上，结果非常清晰。以Qwen3-8B在工具使用任务上为例，标准的SDFT训练让模型的平均信心飙到0.999，而实际准确率只有67.6%——这意味着模型几乎每道题都声称100%有把握，却大约有三分之一的时间是错的。CaOPD处理后，模型的平均信心降至0.699，实际准确率反而提升到70.6%。信心和实际能力之间的差距（研究团队称之为"过度自信缺口"）从+32%压缩到了-0.7%，几乎完美对齐。

在校准误差（ECE，数值越低越好）和Brier得分（综合评估信心准确性的指标，越低越好）这两个专业指标上，CaOPD在几乎所有测试场景中都实现了大幅改善。以Qwen3-8B在科学问答任务上为例，校准误差从SDFT的0.486降至0.266，Brier得分从0.477降至0.281。更关键的是，准确率不降反升，从49.1%微升到50%。

研究团队还特别关注了一个叫做"严格配对排名"（SPR）的指标，这个指标衡量的是：当模型回答正确时，它给出的信心是否严格高于它回答错误时给出的信心？这是信心真正有用的关键——如果AI说"高信心"但其实答对答错都差不多，那这个信心就是无效信息。在工具使用任务上，标准SDFT的SPR惨不忍睹，只有0.085，意味着模型几乎没有能力区分自己答对还是答错——因为它对什么都给出了接近1.0的信心。CaOPD把这个指标提升到0.555，模型终于开始用更高的信心对应正确答案、更低的信心对应错误答案了。

与之形成对比的是强化学习惩罚类方法（RLCR和CAR）的表现。这些方法确实也能把信心压下去，但代价是准确率的大幅下滑，印证了研究团队的判断：用惩罚信心的方式治过度自信，必然伤害到解题能力。CaOPD是目前唯一一种在改善信心同时还保住甚至提升了能力的方案。

五、跨领域、跨时间的考验：诚实到底有没有泛化能力？

单任务上表现好，不代表方法真的可靠。研究团队进一步设计了两种更严苛的测试。

第一种是"跨领域迁移"测试：把模型在工具使用任务上训练好，然后直接拿去测科学问答——一个它从没见过的任务类型。标准SDFT方法在这种情况下彻底崩溃，尽管答题准确率还能维持在36.7%，校准误差却飙升至0.599，配对排名能力也大幅下降。CaOPD方法的校准误差维持在0.358，降幅超过40%，信心分布依然是相对合理的。原因在于，CaOPD训练的模型学到的不是"在化学题上如何表达信心"或"在API调用上如何表达信心"，而是一种更根本的能力：把自己内心的不确定感，准确地映射到一个数字上。这是一个通用技能，迁移到新领域时不需要重新学习。

第二种是"持续学习不遗忘"测试：先在工具使用任务上训练，再在科学问答上继续训练，看看后者会不会把前者学到的能力破坏掉。以前的研究证明SDFT能有效防止"遗忘做题能力"，但Salesforce的研究发现了一个新问题：即使做题能力保住了，信心校准能力却会被彻底遗忘。SDFT持续学习后，工具使用任务上的配对排名能力从0.085直接跌到0.000——完全失去了区分对错的信心分辨力。CaOPD持续学习后，配对排名仍维持在0.510，校准误差也从0.513压缩到0.253，信心校准和做题能力同时被保留了下来。

这个发现被研究团队称为"校准遗忘"现象，是之前没有人注意到的新问题：不是所有遗忘都是能力遗忘，信心的诚实程度也会随着持续学习而流失，而且比能力流失更隐蔽、更难察觉。CaOPD提供了一种内置的保护机制，因为每次训练时信心都被重新锚定到经验胜率，持续更新的训练数据天然地防止了校准的退化。

六、规模之战：从0.6B到32B，诚实真的可以随能力一起成长

研究团队最后的实验回答了一个终极问题：如果用更大的模型，同时用CaOPD训练，会发生什么？

在Qwen3系列从0.6B到32B的六个规模上，研究团队同时运行了标准SDFT训练和CaOPD训练，并把结果可视化在同一张图上。标准SDFT的结果形成了一条接近水平的直线，贴近"信心=1.0"的天花板，不管模型大小，信心都饱和在顶端。CaOPD的结果则完全不同：随着模型规模增大、答题准确率随之提升，模型表达出来的信心也等比例地在上升，最终信心和准确率指向同一个位置。在可靠性（1减去Brier得分）和配对排名两个指标上，CaOPD在每个参数规模上都严格优于SDFT，而且随着规模增大，两者之间的优势以稳定的方式扩大。

这组结果在概念上具有重要意义：它打破了"信心只能靠缩减能力来换取"的假设，证明了能力提升和信心诚实可以在同一个训练框架内同步实现。一个经过CaOPD训练的8B模型，在可靠性排名上能够接近甚至超过许多规模大得多的顶尖商业模型，而后者每一个都是"聪明但爱吹牛"的代表。

---

归根结底，这项研究想告诉我们的核心道理并不复杂：一个人知道多少，和他对自己知道多少有多少把握，是两件不同的事。一个真正可信的朋友，不仅要说对，还要在说错的时候承认自己没把握。Salesforce的研究团队用数学和实验证明，这两件事在AI身上也可以彼此独立地学习和改进。

对于普通用户而言，这意味着未来的AI助手或许真的能给你一个有意义的自信程度参考——当它说"我有80%的把握"，那个数字真的代表它在类似问题上大约能答对八成，而不只是一句空话。当它说"我不太确定"，那也许是真的信号，而不是客套的谦辞。

对于AI开发者和企业而言，这项研究提出了一个值得认真对待的警示：当你在追求更高能力分数的同时，你可能正在系统性地破坏模型的诚实性，而你可能甚至没有意识到这一点。校准不是锦上添花的附加功能，而是可信AI的基础设施。

对于关心AI安全的所有人而言，一个总是声称百分百确定的AI，在自主决策场景下是危险的。而一个能准确表达"我对这件事没把握"的AI，则天然地留出了人类干预和纠错的空间。从这个角度来看，让AI学会诚实地说"我不确定"，或许是比让AI变得更强大更重要的事情。

有兴趣深入了解完整技术细节的读者，可以通过论文编号arXiv:2604.16830在arXiv平台查阅这篇由Salesforce AI研究院发布的完整论文。

---

Q&A

Q1：在线策略蒸馏（OPD）训练出来的AI为什么会过度自信？

A：OPD训练时，"教师角色"能看到正确答案等辅助信息，因此表达出极高的确定性。"学生角色"通过学习模仿了这种自信口吻，但真实使用时它没有那些辅助信息。更糟的是，训练数据几乎全是成功案例，模型从未学过如何表达"我不确定"，最终形成系统性的过度自信，模型规模再大也无法自然解决这个问题。

Q2：CaOPD方法是如何在不损害答题能力的情况下改善AI信心准确性的？

A：CaOPD的核心是把"解题能力学习"和"信心表达学习"彻底分开。训练时先让模型独立尝试多次，计算出真实成功率作为信心目标，然后把这个实际数字替换掉原本偏高的信心标签，再正常进行推理能力的学习。能力部分照常从教师角色的高质量示范中学习，信心部分则被锚定在模型自身的真实水平上，两者互不干扰。

Q3：CaOPD训练的模型在遇到没见过的新任务时，信心校准能力还能保持吗？

A：根据实验结果，CaOPD学到的是一种通用的"把内心不确定感准确映射为数字"的能力，而非某个特定领域的信心表达模式，因此在跨域测试中保持了相对良好的校准性能，校准误差降幅超过40%。在持续学习场景中，CaOPD也能防止信心校准能力随新任务训练而退化，这是标准方法做不到的。

云霞资讯网

Salesforce AI研究院揭秘：为什么AI越聪明，越容易说大话？

热门分类

Salesforce AI研究院揭秘：为什么AI越聪明，越容易说大话？

猜你喜欢

热门分类