MIT师生推出全新算法RandOpt
只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。
MIT新论文向大家都在头疼的“调参”开炮了!
为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。
然而现在,一对来自MIT的师生用一篇新论文告诉大家:
不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多。网页链接

MIT师生推出全新算法RandOpt
只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。
MIT新论文向大家都在头疼的“调参”开炮了!
为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。
然而现在,一对来自MIT的师生用一篇新论文告诉大家:
不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多。网页链接
