云霞资讯网

【让AI自己优化AI提示词:从56%到92%的自动进化实验】快速阅读:一个叫au

【让AI自己优化AI提示词:从56%到92%的自动进化实验】

快速阅读:一个叫autoresearch的方法可以让AI自动优化你的Claude技能提示词。你只需定义3-6个yes/no评分标准,agent就会自主测试、改进、保留有效修改,循环往复。作者的落地页文案技能通过这个方法从56%准确率提升到92%,完全无需人工干预。

---

Andrej Karpathy(OpenAI联合创始人)提出了一个叫autoresearch的方法:让AI在循环中自我优化,而不是你手动修改。

原理很简单。尝试一个小改动,检查结果是否变好,变好就保留,变差就撤销。然后重复这个过程。

他用这个方法优化机器学习代码,但这套逻辑适用于任何可以量化和改进的东西,包括你在Claude里搭建的技能。

作者把这个思路做成了一个技能,放在Claude Code和Cowork里运行。只要说一句“run autoresearch on my landing page skill”,它就会自己跑完整个流程。

核心在于一个评分清单。

你不需要模糊地说“写得好不好”,而是列出3-6个yes/no问题。比如落地页文案的清单可能是:- 标题是否包含具体数字或结果?- 文案是否避免了“革命性”“协同”“前沿”等营销黑话?- CTA是否使用了具体动词短语?- 开头第一句是否直击具体痛点?- 总字数是否在150字以内?

这个清单就是“好”的定义。agent用它给每次输出打分,分数告诉它改动是否有效。

有网友提到,这就像用固定标准批改作文,而不是每次凭感觉打分,一百份试卷都能保持评判的一致性。

运行步骤:1. 下载技能文件,放进skills文件夹2. 选一个最让你头疼的技能3. agent会问你三个问题:优化哪个技能、用什么测试输入、评分清单是什么4. 它跑一遍技能,给出基准分数5. 打开浏览器实时仪表盘,显示分数曲线、每条清单的通过率、所有改动的日志6. 走开就行

agent进入循环。分析哪些检查项在失败,对提示词做一个小改动,再测试,分数上升就保留,下降就撤销。一直重复,直到连续三次达到95%以上,或者你手动停止。

作者的落地页文案技能经过4轮改动,从56%提升到92%。具体改了什么:- 加了一条明确规则:标题必须包含具体数字或结果,禁止“改变你的业务”这类空话- 加了禁用词列表:revolutionary、cutting-edge、synergy、next-level等- 加了一个优秀案例,标注出痛点开头和CTA,让技能看到“好”的样子- 试过更严格的字数限制,但发现文案变得太单薄、CTA受损,于是撤销了这个改动

完成后你会得到:改进后的技能(原版保持不变)、每轮分数的结果日志、每次改动的详细说明(为什么尝试、是否有效)、原始技能的备份。

那份changelog可能是最有价值的部分。它记录了对这个特定技能来说,什么有效、什么无效。等更强的模型出现时,直接把changelog交给它,新agent就能接着上次的进度继续优化。

这个方法不只适用于技能。任何可以打分的东西都能用autoresearch。有人用它优化网页加载速度,从1100ms降到67ms,跑了67轮。也可以用在冷邮件、newsletter开头、任何你重复使用的提示词上。

能打分,就能autoresearch。

ref: x.com/itsolelehmann/status/2033919415771713715

AI创造营 人工智能