这项调查解释了为什么 LLM 作为法官在处理难题时会失败,以及代理人作为法官如何使判断变得可靠。普通的LLM评判员,即一个只需一次测试就能对答案进行评分的文本生成AI模型,可能会有偏见,也很容易被欺骗。它也无法将答案与实际情况进行核对,因此可能会因为某个答案听起来不错就将其判定为正确答案。Agent-as-a-Judge 通过将评判变成一个小型工作流程来解决这个问题,在这个工作流程中,评判员可以计划步骤、调用搜索或运行代码等工具以及存储笔记。作者将这些想法归纳为 3 个自主阶段和 5 个构建模块,然后绘制出每种方法适用的领域和使用领域。它们表明,智能体评判员被用于数学和代码、事实核查、对话、图像以及医学、法律、金融和教育等高风险领域,因为步骤检查和多智能体审查可以给出更可靠的分数。该论文还指出了成本和风险,因为多步骤评判需要更多的计算,增加延迟,并且可能会存储敏感数据,但它提供了一种清晰的思考更好评估的方法。论文链接 – arxiv.org/abs/2601.05111论文题目:“代理人即法官”科技先锋官ai生活指南ai创造营
