【让AI自己优化AI提示词：从56%到92%的自动进化实验】快速阅读：一个叫au

【让AI自己优化AI提示词：从56%到92%的自动进化实验】

快速阅读：一个叫autoresearch的方法可以让AI自动优化你的Claude技能提示词。你只需定义3-6个yes/no评分标准，agent就会自主测试、改进、保留有效修改，循环往复。作者的落地页文案技能通过这个方法从56%准确率提升到92%，完全无需人工干预。

---

Andrej Karpathy（OpenAI联合创始人）提出了一个叫autoresearch的方法：让AI在循环中自我优化，而不是你手动修改。

原理很简单。尝试一个小改动，检查结果是否变好，变好就保留，变差就撤销。然后重复这个过程。

他用这个方法优化机器学习代码，但这套逻辑适用于任何可以量化和改进的东西，包括你在Claude里搭建的技能。

作者把这个思路做成了一个技能，放在Claude Code和Cowork里运行。只要说一句“run autoresearch on my landing page skill”，它就会自己跑完整个流程。

核心在于一个评分清单。

你不需要模糊地说“写得好不好”，而是列出3-6个yes/no问题。比如落地页文案的清单可能是：- 标题是否包含具体数字或结果？- 文案是否避免了“革命性”“协同”“前沿”等营销黑话？- CTA是否使用了具体动词短语？- 开头第一句是否直击具体痛点？- 总字数是否在150字以内？

这个清单就是“好”的定义。agent用它给每次输出打分，分数告诉它改动是否有效。

有网友提到，这就像用固定标准批改作文，而不是每次凭感觉打分，一百份试卷都能保持评判的一致性。

运行步骤：1. 下载技能文件，放进skills文件夹2. 选一个最让你头疼的技能3. agent会问你三个问题：优化哪个技能、用什么测试输入、评分清单是什么4. 它跑一遍技能，给出基准分数5. 打开浏览器实时仪表盘，显示分数曲线、每条清单的通过率、所有改动的日志6. 走开就行

agent进入循环。分析哪些检查项在失败，对提示词做一个小改动，再测试，分数上升就保留，下降就撤销。一直重复，直到连续三次达到95%以上，或者你手动停止。

作者的落地页文案技能经过4轮改动，从56%提升到92%。具体改了什么：- 加了一条明确规则：标题必须包含具体数字或结果，禁止“改变你的业务”这类空话- 加了禁用词列表：revolutionary、cutting-edge、synergy、next-level等- 加了一个优秀案例，标注出痛点开头和CTA，让技能看到“好”的样子- 试过更严格的字数限制，但发现文案变得太单薄、CTA受损，于是撤销了这个改动

完成后你会得到：改进后的技能（原版保持不变）、每轮分数的结果日志、每次改动的详细说明（为什么尝试、是否有效）、原始技能的备份。

那份changelog可能是最有价值的部分。它记录了对这个特定技能来说，什么有效、什么无效。等更强的模型出现时，直接把changelog交给它，新agent就能接着上次的进度继续优化。

这个方法不只适用于技能。任何可以打分的东西都能用autoresearch。有人用它优化网页加载速度，从1100ms降到67ms，跑了67轮。也可以用在冷邮件、newsletter开头、任何你重复使用的提示词上。

能打分，就能autoresearch。

ref: x.com/itsolelehmann/status/2033919415771713715

AI创造营人工智能