[LG]《Meta-TTRL: A Metacognitive Framewor

[LG]《Meta-TTRL: A Metacognitive Framework for Self-Improving Test-Time Reinforcement Learning in Unified Multimodal Models》L S Tan, J Chen, X Fu, L Ma… [Tsinghua University & JD.COM] (2026)

文本到图像生成模型在测试时只能"抽好牌"，却不能"从每局游戏中学习"——每次遇到相似提示词，失败模式原封不动地重演，所有测试时算力换来的改善随着推理结束烟消云散，根本原因是现有方法锁死参数、只做采样与搜索，无法将经验转化为能力积累。

本文的核心洞见是：把模型自身的多模态理解能力重新看作内置的"元认知监考官"。由此，让模型一边生成候选图像，一边用自己的视觉理解能力将提示词分解成可逐项核查的评估细则，再以这份自评分数作为强化学习奖励信号反向更新生成参数——这一"监控—控制"闭环使模型真正从测试经历中学习，性能增益得以在参数层面沉淀下来。

这项工作真正留下的遗产是：证明了模型内生的元知识足以充当奖励信号，无需任何外部评判器即可驱动测试时自我改进，且"信号与模型优化域匹配"比评判器绝对能力更关键。它为后来者打开的新门是：将元认知协同作为设计TTRL系统的核心原则，而非简单堆叠更强的外部奖励模型。但尚未跨过的门槛是：框架依赖模型参数开放可访问，无法适用于闭源系统。

arxiv.org/abs/2603.15724

机器学习人工智能论文 AI创造营

云霞资讯网

[LG]《Meta-TTRL: A Metacognitive Framewor

热门分类