AI会自己进化了大模型自己训练自己
大模型终于学会更新自己了!
MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。
无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。
该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。
这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。
SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。
AI会自己进化了大模型自己训练自己
大模型终于学会更新自己了!
MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。
无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。
该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。
这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。
SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。
猜你喜欢
【3评论】【18点赞】
【9评论】【31点赞】
【1评论】【10点赞】
【10评论】【15点赞】
作者最新文章
热门分类
科技TOP
科技最新文章