🤖 文献解读 · AI for Science / Agent / 自动同行评审

The AI Scientist 方法解读:端到端自动化 AI 研究与自动同行评审

Nature 2026 论文 Towards end-to-end automation of AI research:作者提出 The AI Scientist,把机器学习研究流程拆成“想法生成、实验执行、结果分析、论文写作、自动评审”闭环,并用真实 ICLR workshop 盲审测试了 AI 生成论文能否进入同行评审系统。

Nature · 2026 DOI: 10.1038/s41586-026-10265-5 PMID: 41882133 · PMCID: PMC13017497 工具:The AI Scientist / Automated Reviewer 更新:2026-06-30

论文主张

AI 不再只辅助某个环节,而是可以在计算型机器学习研究里尝试走完整研究生命周期:提出想法、查重、写代码、跑实验、画图、写论文,再由自动评审器给出审稿意见。

最强证据

作者把 3 篇 AI 生成论文提交到 ICLR 2025 ICBINB workshop 盲审;其中 1 篇获得 6、7、6 的评分,超过平均接收阈值,但按预先协议在评审后撤回。

不能过度解读

这不是“AI 已经能做顶会主会科学家”。作者明确说:1/3 workshop 成功,workshop 接收率 70%,主会接收率约 32%;系统仍有想法幼稚、实现错误、幻觉引用等问题。

一句话判断:这篇文章的重要性在于把“科研自动化”从单点工具推进到可评估的端到端 agent pipeline,并把结果放入真实同行评审环境试验;它更像一个科研工作流原型和社会技术信号,而不是一个已经可靠替代研究者的系统。

1. 文献信息

项目内容
论文Towards end-to-end automation of AI research
中文题意迈向 AI 研究的端到端自动化
作者Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, Jakob Foerster, David Ha, Jeff Clune
期刊与时间Nature 651(8107): 914–919;Published online: 25 March 2026;Print issue: 26 March 2026;Received: 8 July 2025;Accepted: 11 February 2026
DOI / PMID / PMCID10.1038/s41586-026-10265-5 / 41882133 / PMC13017497
开放许可Open Access,CC BY 4.0。本文复用的论文图表来自原文 PDF,按 CC BY 4.0 标注来源。

2. 研究问题:AI 能否走完一个研究闭环?

已有 AI for Science 的局限

在这篇论文之前,AI 已经在蛋白结构预测、材料发现、化学结构发现、数学证明、数据挖掘等任务上发挥作用;LLM 也能辅助假设生成、文献综述和代码实验。

但这些大多是局部环节自动化:缺少一个能自主穿过“想法—实验—论文—评审”的完整系统。

本文关注的窄边界

作者聚焦机器学习科学,因为实验通常可以完全在计算机内完成。换句话说,它不是一上来就做湿实验、动物实验或临床研究,而是先选了最容易自动闭环的科研场景。

这个边界很重要:论文证明的是“计算型 ML 研究的端到端自动化开始可行”,不是证明所有科学都可被当前 agent 自动化。

3. The AI Scientist:端到端研究 agent pipeline

1想法生成

在用户指定的机器学习子领域内生成研究方向、动机和实验计划,并维护 idea archive。

2新颖性检查

连接 Semantic Scholar API 和网页检索,过滤与已有文献过于接近的想法。

3实验执行

写代码、调试、运行实验、保存日志和图表;template-free 模式还用 agentic tree search 搜索实验分支。

4论文与评审

填充 LaTeX 会议论文模板、补充 related work 与引用,最后交给 Automated Reviewer 评分和审稿。

Template-based 模式

人类提供一个起始代码模板,系统围绕既有训练 run 做实验扩展。优点是更稳,缺点是研究空间较窄。

Template-free 模式

系统自己生成起始代码,并通过更多 test-time compute 和树搜索优化实验。真实 workshop 提交实验使用的是这个模式。

4. Automated Reviewer:为什么需要自动评审器?

端到端科研自动化的难点不仅是“能生成论文”,还在于如何大规模判断生成研究是否有质量。作者因此构建 Automated Reviewer:按 NeurIPS 审稿指南输出 soundness、presentation、contribution、overall quality、confidence,列出优缺点,并给出 accept/reject。

5每篇论文生成 5 份独立自动审稿
0.692017–2024 ICLR 数据 balanced accuracy
0.662025 cutoff 后数据 balanced accuracy
读法提醒:Automated Reviewer 是本文实验中的“标尺”,但它本身也是 LLM 系统。它在历史 ICLR/OpenReview 决策上与人类一致性接近,并不等于它能替代真实同行评审;作者也在补充材料讨论了自动评审器的局限。

5. 真实盲审实验:1 篇 workshop 论文过线,但不是顶会主会水平

3AI 生成论文被选中并提交 workshop 盲审
43该 workshop 参与评审的论文总数
6.33通过阈值的 AI 论文平均审稿分

作者在 ICLR 2025 “I Can’t Believe It’s Not Better”(ICBINB)workshop 中提交 3 篇 AI 生成论文。实验得到 ICLR 领导、workshop 组织者和 UBC IRB 批准;评审者被告知有少量提交可能由 AI 生成,但不知道具体是哪篇。

其中一篇 AI 生成论文获得 6、7、6 的评分,按组织者说法,如果不是依据预设协议因 AI 生成而撤稿,很可能被接收。作者团队的内部人工复核同时认为:这篇论文达到了 workshop 水平,但 3 篇都没有达到 ICLR 主会论文门槛。

6. 主要图表证据

Figure 1 The AI Scientist workflow
Figure 1 · 系统工作流与自动评审验证

从想法到论文,再到自动评审

图示信息:Figure 1a 展示 The AI Scientist 的四阶段工作流;1b 显示基础模型随发布时间变新,生成论文的自动评审分数上升;1c 对比 Automated Reviewer 与人类评审的一致性。
论文结果:模型越强,AI Scientist 论文质量越高;Automated Reviewer 在 ICLR 决策预测上达到与人类评审一致性相近的水平。
研究意义:这说明端到端科研 agent 的能力会受底座模型和评估器质量共同驱动,未来模型进步可能直接转化为更强的自动科研能力。
Table 1 automated reviewer comparison
Table 1 · 自动评审器性能

自动评审器与人类一致性相近,但不是完美审稿人

图示信息:表格比较 NeurIPS 人类评审一致性、随机决策、永远拒稿策略和 Automated Reviewer 在 ICLR 数据上的 balanced accuracy、F1、AUC、FPR、FNR。
论文结果:Automated Reviewer 在 2017–2024 数据上 balanced accuracy 为 0.69±0.04,在 2025 cutoff 后数据为 0.66±0.03,F1 分别为 0.62±0.09 与 0.67±0.09。
研究意义:作者用它作为批量评价生成论文的工具,但也通过 cutoff 后数据测试来减轻“训练数据污染”的解释。
Figure 2 AI-generated accepted workshop paper
Figure 2 · AI 生成论文进入 workshop 盲审

一篇 AI 生成论文达到 workshop 接收水平

图示信息:展示通过阈值的 AI 生成论文片段:标题摘要、技术方法、数据可视化和参考文献。
论文结果:该论文获得 6、7、6 的评审分,平均 6.33,位于提交论文前 45% 左右。
研究意义:这是本文最有现实冲击力的证据:端到端 AI 研究系统生成的论文能在真实盲审系统中达到 workshop 级别。
Figure 3 compute scaling and tree search
Figure 3 · 树搜索与 test-time compute

更多实验节点带来更高论文分数

图示信息:Figure 3a 展示四阶段实验执行;3b 给出一次真实 tree search 的节点演化;3c 显示实验节点数越多,自动评审分数越高。
论文结果:在 template-free 模式中,增加 agentic tree search 的实验节点数会提升最终论文得分。
研究意义:科研 agent 的能力不只取决于模型参数,还取决于推理时计算预算、搜索策略、调试和实验迭代机制。

图表来源:Lu et al., Nature 2026, DOI: 10.1038/s41586-026-10265-5,原文 CC BY 4.0。为网页展示进行了裁剪、压缩与版式嵌入。

7. 适用场景与不适用场景

适用场景

  • 计算实验可自动运行、结果可自动评估的机器学习研究。
  • 围绕已有 benchmark、公开数据集和代码模板做快速探索。
  • 需要自动生成研究想法、实验计划、代码原型和初版论文草稿。
  • 内部研发中做“低成本假设筛选”,把人类精力留给高价值判断。
  • 构建科研 agent、自动审稿、代码实验 agent 的系统设计参考。

不适用或需强监管

  • 需要伦理审批、临床/动物/湿实验安全控制的研究。
  • 结论依赖强因果解释、深领域知识或高风险外部行动的研究。
  • 没有可靠自动评价指标、无法快速复现实验的开放科学问题。
  • 把 AI 生成论文直接投向真实学术系统而不披露来源。
  • 用自动审稿器替代正式同行评议或评价研究人员。

8. 局限、风险与治理

技术局限

作者列出的常见失败包括:想法幼稚或不充分、核心实现错误、方法严谨性不足、实验实现错误、主文和附录重复图、幻觉引用。系统目前只做计算实验,尚未覆盖真实实验室场景。

社会风险

论文明确提到:可能压垮同行评审系统、向文献中加入噪声、虚增科研履历、错误挪用他人想法、冲击研究岗位,甚至被用于不道德或危险实验。

关键底线:这篇论文不是给“自动刷论文”背书。作者在真实 workshop 实验中提前取得许可,并预设无论结果如何都撤回 AI 生成稿件;这恰好说明端到端 AI 研究系统必须配套披露、审查和责任边界。

9. 代码、数据、资金与声明

类别信息
代码Template-based The AI Scientist 与 Automated Reviewer:SakanaAI/AI-Scientist;template-free 版本:SakanaAI/AI-Scientist-v2;均为 Apache License 2.0。
数据nanoGPT 实验使用 Shakespeare character、enwiki8、text8;template-free workshop 实验使用 Crop Pest and Disease Detection;Figure 1b/3b/3c 使用 Waterbirds 和 CelebA;其他 template-free 情况使用 HuggingFace Hub 数据集。
伦理审批University of British Columbia Behavioral Research Ethics Board,Protocol No. H24-02652;ICLR 领导和 workshop 组织者配合;所有 AI 生成提交在评审后撤回。
资金Schmidt Futures、NSERC、Vector Institute、Canada CIFAR AI Chairs programme,以及 R. Cosman 捐赠。
利益冲突J.C. 关联 Vector Institute 和 Google DeepMind;项目与 Google DeepMind 无关。Chris Lu、Cong Lu、R.T.L.、Y.Y.、S.H.、D.H. 是 Sakana AI 员工或顾问;相关安排已由 UBC 审查批准。其他作者声明无利益冲突。