法考也卷AI了LEXam上线一周爆火登顶榜首
大模型推理能力,正在法律圈引发热议。最近,一项专为评估法律推理能力而设的多语言数据集——LEXam横空出世,由苏黎世联邦理工、瑞士联邦最高法院等机构联合发布。
LEXam集结了近5000道真实法律考试题目,涵盖问答题与选择题两大类,源自瑞士法学院的340场课程,题目以英语和德语撰写,融合大陆法与普通法特色。不止提供标准答案,还详细标注推理路径,比如如何识别问题、回忆法律规则、适用规则等,为评估大模型的法律推理能力提供了前所未有的细粒度维度。
新研究显示,哪怕是GPT-4.1、Claude-3.7这种顶流模型,在多步骤复杂推理场景下仍然力不从心。相比之下,经过专门优化的模型,如Gemini-2.5-Pro和Claude表现最佳。
LEXam另一个创新点是“LLM-as-a-Judge”机制:由模型对模型的推理步骤评分,并与人工评估对比验证,相关性高,具可复用性,极大提高了评估的自动化和可信度。