The AI Scientist 方法解读：端到端自动化 AI 研究与自动同行评审

论文主张

AI 不再只辅助某个环节，而是可以在计算型机器学习研究里尝试走完整研究生命周期：提出想法、查重、写代码、跑实验、画图、写论文，再由自动评审器给出审稿意见。

最强证据

作者把 3 篇 AI 生成论文提交到 ICLR 2025 ICBINB workshop 盲审；其中 1 篇获得 6、7、6 的评分，超过平均接收阈值，但按预先协议在评审后撤回。

不能过度解读

这不是“AI 已经能做顶会主会科学家”。作者明确说：1/3 workshop 成功，workshop 接收率 70%，主会接收率约 32%；系统仍有想法幼稚、实现错误、幻觉引用等问题。

一句话判断：这篇文章的重要性在于把“科研自动化”从单点工具推进到可评估的端到端 agent pipeline，并把结果放入真实同行评审环境试验；它更像一个科研工作流原型和社会技术信号，而不是一个已经可靠替代研究者的系统。

1. 文献信息

项目	内容
论文	Towards end-to-end automation of AI research
中文题意	迈向 AI 研究的端到端自动化
作者	Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, Jakob Foerster, David Ha, Jeff Clune
期刊与时间	Nature 651(8107): 914–919；Published online: 25 March 2026；Print issue: 26 March 2026；Received: 8 July 2025；Accepted: 11 February 2026
DOI / PMID / PMCID	10.1038/s41586-026-10265-5 / 41882133 / PMC13017497
开放许可	Open Access，CC BY 4.0。本文复用的论文图表来自原文 PDF，按 CC BY 4.0 标注来源。

2. 研究问题：AI 能否走完一个研究闭环？

已有 AI for Science 的局限

在这篇论文之前，AI 已经在蛋白结构预测、材料发现、化学结构发现、数学证明、数据挖掘等任务上发挥作用；LLM 也能辅助假设生成、文献综述和代码实验。

但这些大多是局部环节自动化：缺少一个能自主穿过“想法—实验—论文—评审”的完整系统。

本文关注的窄边界

作者聚焦机器学习科学，因为实验通常可以完全在计算机内完成。换句话说，它不是一上来就做湿实验、动物实验或临床研究，而是先选了最容易自动闭环的科研场景。

这个边界很重要：论文证明的是“计算型 ML 研究的端到端自动化开始可行”，不是证明所有科学都可被当前 agent 自动化。

3. The AI Scientist：端到端研究 agent pipeline

1想法生成

在用户指定的机器学习子领域内生成研究方向、动机和实验计划，并维护 idea archive。

2新颖性检查

连接 Semantic Scholar API 和网页检索，过滤与已有文献过于接近的想法。

3实验执行

写代码、调试、运行实验、保存日志和图表；template-free 模式还用 agentic tree search 搜索实验分支。

4论文与评审

填充 LaTeX 会议论文模板、补充 related work 与引用，最后交给 Automated Reviewer 评分和审稿。

Template-based 模式

人类提供一个起始代码模板，系统围绕既有训练 run 做实验扩展。优点是更稳，缺点是研究空间较窄。

Template-free 模式

系统自己生成起始代码，并通过更多 test-time compute 和树搜索优化实验。真实 workshop 提交实验使用的是这个模式。

4. Automated Reviewer：为什么需要自动评审器？

端到端科研自动化的难点不仅是“能生成论文”，还在于如何大规模判断生成研究是否有质量。作者因此构建 Automated Reviewer：按 NeurIPS 审稿指南输出 soundness、presentation、contribution、overall quality、confidence，列出优缺点，并给出 accept/reject。

5每篇论文生成 5 份独立自动审稿

0.692017–2024 ICLR 数据 balanced accuracy

0.662025 cutoff 后数据 balanced accuracy

读法提醒：Automated Reviewer 是本文实验中的“标尺”，但它本身也是 LLM 系统。它在历史 ICLR/OpenReview 决策上与人类一致性接近，并不等于它能替代真实同行评审；作者也在补充材料讨论了自动评审器的局限。

5. 真实盲审实验：1 篇 workshop 论文过线，但不是顶会主会水平

3AI 生成论文被选中并提交 workshop 盲审

43该 workshop 参与评审的论文总数

6.33通过阈值的 AI 论文平均审稿分

作者在 ICLR 2025 “I Can’t Believe It’s Not Better”（ICBINB）workshop 中提交 3 篇 AI 生成论文。实验得到 ICLR 领导、workshop 组织者和 UBC IRB 批准；评审者被告知有少量提交可能由 AI 生成，但不知道具体是哪篇。

其中一篇 AI 生成论文获得 6、7、6 的评分，按组织者说法，如果不是依据预设协议因 AI 生成而撤稿，很可能被接收。作者团队的内部人工复核同时认为：这篇论文达到了 workshop 水平，但 3 篇都没有达到 ICLR 主会论文门槛。

6. 主要图表证据

Figure 1 · 系统工作流与自动评审验证

从想法到论文，再到自动评审

图示信息：Figure 1a 展示 The AI Scientist 的四阶段工作流；1b 显示基础模型随发布时间变新，生成论文的自动评审分数上升；1c 对比 Automated Reviewer 与人类评审的一致性。

论文结果：模型越强，AI Scientist 论文质量越高；Automated Reviewer 在 ICLR 决策预测上达到与人类评审一致性相近的水平。

研究意义：这说明端到端科研 agent 的能力会受底座模型和评估器质量共同驱动，未来模型进步可能直接转化为更强的自动科研能力。

Table 1 · 自动评审器性能

自动评审器与人类一致性相近，但不是完美审稿人

图示信息：表格比较 NeurIPS 人类评审一致性、随机决策、永远拒稿策略和 Automated Reviewer 在 ICLR 数据上的 balanced accuracy、F1、AUC、FPR、FNR。

论文结果：Automated Reviewer 在 2017–2024 数据上 balanced accuracy 为 0.69±0.04，在 2025 cutoff 后数据为 0.66±0.03，F1 分别为 0.62±0.09 与 0.67±0.09。

研究意义：作者用它作为批量评价生成论文的工具，但也通过 cutoff 后数据测试来减轻“训练数据污染”的解释。

Figure 2 AI-generated accepted workshop paper

Figure 2 · AI 生成论文进入 workshop 盲审

一篇 AI 生成论文达到 workshop 接收水平

图示信息：展示通过阈值的 AI 生成论文片段：标题摘要、技术方法、数据可视化和参考文献。

论文结果：该论文获得 6、7、6 的评审分，平均 6.33，位于提交论文前 45% 左右。

研究意义：这是本文最有现实冲击力的证据：端到端 AI 研究系统生成的论文能在真实盲审系统中达到 workshop 级别。

Figure 3 compute scaling and tree search

Figure 3 · 树搜索与 test-time compute

7. 适用场景与不适用场景

适用场景

计算实验可自动运行、结果可自动评估的机器学习研究。
围绕已有 benchmark、公开数据集和代码模板做快速探索。
需要自动生成研究想法、实验计划、代码原型和初版论文草稿。
内部研发中做“低成本假设筛选”，把人类精力留给高价值判断。
构建科研 agent、自动审稿、代码实验 agent 的系统设计参考。

不适用或需强监管

需要伦理审批、临床/动物/湿实验安全控制的研究。
结论依赖强因果解释、深领域知识或高风险外部行动的研究。
没有可靠自动评价指标、无法快速复现实验的开放科学问题。
把 AI 生成论文直接投向真实学术系统而不披露来源。
用自动审稿器替代正式同行评议或评价研究人员。

8. 局限、风险与治理

技术局限

作者列出的常见失败包括：想法幼稚或不充分、核心实现错误、方法严谨性不足、实验实现错误、主文和附录重复图、幻觉引用。系统目前只做计算实验，尚未覆盖真实实验室场景。

社会风险

论文明确提到：可能压垮同行评审系统、向文献中加入噪声、虚增科研履历、错误挪用他人想法、冲击研究岗位，甚至被用于不道德或危险实验。

关键底线：这篇论文不是给“自动刷论文”背书。作者在真实 workshop 实验中提前取得许可，并预设无论结果如何都撤回 AI 生成稿件；这恰好说明端到端 AI 研究系统必须配套披露、审查和责任边界。

9. 代码、数据、资金与声明

类别	信息
代码	Template-based The AI Scientist 与 Automated Reviewer：SakanaAI/AI-Scientist；template-free 版本：SakanaAI/AI-Scientist-v2；均为 Apache License 2.0。
数据	nanoGPT 实验使用 Shakespeare character、enwiki8、text8；template-free workshop 实验使用 Crop Pest and Disease Detection；Figure 1b/3b/3c 使用 Waterbirds 和 CelebA；其他 template-free 情况使用 HuggingFace Hub 数据集。
伦理审批	University of British Columbia Behavioral Research Ethics Board，Protocol No. H24-02652；ICLR 领导和 workshop 组织者配合；所有 AI 生成提交在评审后撤回。
资金	Schmidt Futures、NSERC、Vector Institute、Canada CIFAR AI Chairs programme，以及 R. Cosman 捐赠。
利益冲突	J.C. 关联 Vector Institute 和 Google DeepMind；项目与 Google DeepMind 无关。Chris Lu、Cong Lu、R.T.L.、Y.Y.、S.H.、D.H. 是 Sakana AI 员工或顾问；相关安排已由 UBC 审查批准。其他作者声明无利益冲突。

论文主张

最强证据

不能过度解读

1. 文献信息

2. 研究问题：AI 能否走完一个研究闭环？

已有 AI for Science 的局限

本文关注的窄边界

3. The AI Scientist：端到端研究 agent pipeline

Template-based 模式

Template-free 模式

4. Automated Reviewer：为什么需要自动评审器？

5. 真实盲审实验：1 篇 workshop 论文过线，但不是顶会主会水平

6. 主要图表证据

从想法到论文，再到自动评审

自动评审器与人类一致性相近，但不是完美审稿人

一篇 AI 生成论文达到 workshop 接收水平

更多实验节点带来更高论文分数

7. 适用场景与不适用场景

适用场景

不适用或需强监管

8. 局限、风险与治理

技术局限

社会风险

9. 代码、数据、资金与声明