论文主张
AI 不再只辅助某个环节,而是可以在计算型机器学习研究里尝试走完整研究生命周期:提出想法、查重、写代码、跑实验、画图、写论文,再由自动评审器给出审稿意见。
最强证据
作者把 3 篇 AI 生成论文提交到 ICLR 2025 ICBINB workshop 盲审;其中 1 篇获得 6、7、6 的评分,超过平均接收阈值,但按预先协议在评审后撤回。
不能过度解读
这不是“AI 已经能做顶会主会科学家”。作者明确说:1/3 workshop 成功,workshop 接收率 70%,主会接收率约 32%;系统仍有想法幼稚、实现错误、幻觉引用等问题。
1. 文献信息
| 项目 | 内容 |
|---|---|
| 论文 | Towards end-to-end automation of AI research |
| 中文题意 | 迈向 AI 研究的端到端自动化 |
| 作者 | Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, Jakob Foerster, David Ha, Jeff Clune |
| 期刊与时间 | Nature 651(8107): 914–919;Published online: 25 March 2026;Print issue: 26 March 2026;Received: 8 July 2025;Accepted: 11 February 2026 |
| DOI / PMID / PMCID | 10.1038/s41586-026-10265-5 / 41882133 / PMC13017497 |
| 开放许可 | Open Access,CC BY 4.0。本文复用的论文图表来自原文 PDF,按 CC BY 4.0 标注来源。 |
2. 研究问题:AI 能否走完一个研究闭环?
已有 AI for Science 的局限
在这篇论文之前,AI 已经在蛋白结构预测、材料发现、化学结构发现、数学证明、数据挖掘等任务上发挥作用;LLM 也能辅助假设生成、文献综述和代码实验。
但这些大多是局部环节自动化:缺少一个能自主穿过“想法—实验—论文—评审”的完整系统。
本文关注的窄边界
作者聚焦机器学习科学,因为实验通常可以完全在计算机内完成。换句话说,它不是一上来就做湿实验、动物实验或临床研究,而是先选了最容易自动闭环的科研场景。
这个边界很重要:论文证明的是“计算型 ML 研究的端到端自动化开始可行”,不是证明所有科学都可被当前 agent 自动化。
3. The AI Scientist:端到端研究 agent pipeline
在用户指定的机器学习子领域内生成研究方向、动机和实验计划,并维护 idea archive。
连接 Semantic Scholar API 和网页检索,过滤与已有文献过于接近的想法。
写代码、调试、运行实验、保存日志和图表;template-free 模式还用 agentic tree search 搜索实验分支。
填充 LaTeX 会议论文模板、补充 related work 与引用,最后交给 Automated Reviewer 评分和审稿。
Template-based 模式
人类提供一个起始代码模板,系统围绕既有训练 run 做实验扩展。优点是更稳,缺点是研究空间较窄。
Template-free 模式
系统自己生成起始代码,并通过更多 test-time compute 和树搜索优化实验。真实 workshop 提交实验使用的是这个模式。
4. Automated Reviewer:为什么需要自动评审器?
端到端科研自动化的难点不仅是“能生成论文”,还在于如何大规模判断生成研究是否有质量。作者因此构建 Automated Reviewer:按 NeurIPS 审稿指南输出 soundness、presentation、contribution、overall quality、confidence,列出优缺点,并给出 accept/reject。
5. 真实盲审实验:1 篇 workshop 论文过线,但不是顶会主会水平
作者在 ICLR 2025 “I Can’t Believe It’s Not Better”(ICBINB)workshop 中提交 3 篇 AI 生成论文。实验得到 ICLR 领导、workshop 组织者和 UBC IRB 批准;评审者被告知有少量提交可能由 AI 生成,但不知道具体是哪篇。
其中一篇 AI 生成论文获得 6、7、6 的评分,按组织者说法,如果不是依据预设协议因 AI 生成而撤稿,很可能被接收。作者团队的内部人工复核同时认为:这篇论文达到了 workshop 水平,但 3 篇都没有达到 ICLR 主会论文门槛。
6. 主要图表证据
从想法到论文,再到自动评审
自动评审器与人类一致性相近,但不是完美审稿人
一篇 AI 生成论文达到 workshop 接收水平
更多实验节点带来更高论文分数
图表来源:Lu et al., Nature 2026, DOI: 10.1038/s41586-026-10265-5,原文 CC BY 4.0。为网页展示进行了裁剪、压缩与版式嵌入。
7. 适用场景与不适用场景
适用场景
- 计算实验可自动运行、结果可自动评估的机器学习研究。
- 围绕已有 benchmark、公开数据集和代码模板做快速探索。
- 需要自动生成研究想法、实验计划、代码原型和初版论文草稿。
- 内部研发中做“低成本假设筛选”,把人类精力留给高价值判断。
- 构建科研 agent、自动审稿、代码实验 agent 的系统设计参考。
不适用或需强监管
- 需要伦理审批、临床/动物/湿实验安全控制的研究。
- 结论依赖强因果解释、深领域知识或高风险外部行动的研究。
- 没有可靠自动评价指标、无法快速复现实验的开放科学问题。
- 把 AI 生成论文直接投向真实学术系统而不披露来源。
- 用自动审稿器替代正式同行评议或评价研究人员。
8. 局限、风险与治理
技术局限
作者列出的常见失败包括:想法幼稚或不充分、核心实现错误、方法严谨性不足、实验实现错误、主文和附录重复图、幻觉引用。系统目前只做计算实验,尚未覆盖真实实验室场景。
社会风险
论文明确提到:可能压垮同行评审系统、向文献中加入噪声、虚增科研履历、错误挪用他人想法、冲击研究岗位,甚至被用于不道德或危险实验。
9. 代码、数据、资金与声明
| 类别 | 信息 |
|---|---|
| 代码 | Template-based The AI Scientist 与 Automated Reviewer:SakanaAI/AI-Scientist;template-free 版本:SakanaAI/AI-Scientist-v2;均为 Apache License 2.0。 |
| 数据 | nanoGPT 实验使用 Shakespeare character、enwiki8、text8;template-free workshop 实验使用 Crop Pest and Disease Detection;Figure 1b/3b/3c 使用 Waterbirds 和 CelebA;其他 template-free 情况使用 HuggingFace Hub 数据集。 |
| 伦理审批 | University of British Columbia Behavioral Research Ethics Board,Protocol No. H24-02652;ICLR 领导和 workshop 组织者配合;所有 AI 生成提交在评审后撤回。 |
| 资金 | Schmidt Futures、NSERC、Vector Institute、Canada CIFAR AI Chairs programme,以及 R. Cosman 捐赠。 |
| 利益冲突 | J.C. 关联 Vector Institute 和 Google DeepMind;项目与 Google DeepMind 无关。Chris Lu、Cong Lu、R.T.L.、Y.Y.、S.H.、D.H. 是 Sakana AI 员工或顾问;相关安排已由 UBC 审查批准。其他作者声明无利益冲突。 |