[CL]《How do LLMs Compute Verbal Confiden

[CL]《How do LLMs Compute Verbal Confidence》D Kumaran, A Conmy, F Barbero, S Osindero… [Google DeepMind] (2026)

在语言模型置信度领域，一个悬而未决的难题是：当模型被要求口头报告自信程度时，这个数字究竟从何而来？过去的研究停留在行为层面，无法区分模型是实时拼凑置信度，还是早已悄悄算好、等待被调取——更无从判断它究竟在读取生成流畅度，还是在进行更深层的自我评估。

本文的核心洞见是：把置信度的生成重新看作一种自动缓存—检索机制，而非即时计算。由此，通过激活引导、因果修补、注意力阻断等一系列干预实验，研究者追踪到置信度表征在答案结束后的换行符位置（PANL）便已成形，随后被信心冒号位置（CC）调取输出。更关键的是，方差分解显示这些表征所携带的信息，远超token对数概率所能解释的范围。

这项工作真正留下的遗产是：首次用机械可解释性方法，将LLM的元认知能力定位到具体的信息流路径上，为"模型是否真正理解自身的答案质量"提供了肯定性的电路级证据。它为后来者打开的新门是：基于这条缓存路径进行定向干预，有望实现比提示工程更精准的校准优化。但尚未跨过的门槛是：实验仅覆盖事实问答且抑制了思维链，置信度缓存机制在推理模型与开放生成场景中是否同样成立，仍是未解之问。

arxiv.org/abs/2603.17839

机器学习人工智能论文 AI创造营

云霞资讯网

[CL]《How do LLMs Compute Verbal Confiden

热门分类