Skip to content

Stage 1: 选题 (Ideation)

进入时手里有什么

  • 用户给定的研究方向(一句话描述,如"基于视觉语言模型的细粒度图像识别")
  • 全局基础设施配置(GPU 预算、可用服务器)
  • 空的项目目录结构

阶段目标

从模糊的研究方向,产出一个通过评审的、有 base paper 支撑的、在预算内可行的 idea。

具体步骤

mermaid
graph TD
    A[用户给出研究方向] --> B[Scout: 文献调研]
    B --> C[Planner: 生成候选 idea]
    C --> D[Judge: 评审每个 idea]
    D --> E{有 go 的 idea?}
    E -->|有| F[呈现给用户选择]
    E -->|全部 no-go| G[调整方向重新搜索]
    F --> H[用户选定 idea]
    H --> I[进入 Baseline Digestion 阶段]
    G --> B

Step 1: 文献调研

执行者: Scout (Gemini)

编排器给 Scout 发搜索指令:

搜索 2023-2025 年细粒度图像识别领域的论文。
关注 CVPR / ICCV / NeurIPS / ICML / ECCV。
重点搜索:
- 使用对比学习/自监督学习的方法
- 有开源代码的论文
- 报告了 CUB-200 / Stanford Cars / FGVC Aircraft 结果的论文

Scout 返回论文列表,每篇包含标题、方法摘要、主要结果和代码链接。

Step 2: 生成候选 Idea

执行者: Planner (Claude Opus)

Planner 收到 Scout 的调研结果,生成 3-5 个候选 idea。每个 idea 必须包含:

  • 一句话描述
  • 技术路线概要
  • Base paper(论文 + GitHub + 确认代码可用)
  • GPU 需求估算
  • 风险评估

Base Paper 是硬要求

没有 base paper 的 idea 不予评审。Base paper 必须同时是代码基础、实验基准和比较对象。

Step 3: 独立评审

执行者: Judge (Codex)

Judge 独立评审每个 idea,不知道 Planner 的偏好和推理过程。评审维度:

维度问什么
可行性8×4090 24h 内能跑完吗?base paper 代码能用吗?
新颖性和已有工作的差异在哪?不是简单的组合吗?
重要性如果成功,贡献足够一篇论文吗?
可复现性别人能按我们的描述复现吗?

Step 4: 用户选择

编排器汇总 idea 列表和 Judge 评分,呈现给用户:

markdown
## 候选 Idea 评审结果

### 1. contrastive-decouple (Judge: GO, 7.0/10)
通过对比学习解耦共性和判别性特征
- 可行性: 8/10 | 新颖性: 6/10 | 重要性: 7/10
- Base paper: xxx (CVPR 2024), 代码可用 ✓

### 2. cross-granularity-align (Judge: REVISE, 5.5/10)
跨粒度特征对齐
- 可行性: 5/10 | 新颖性: 7/10 | 重要性: 6/10
- 风险: 训练时间可能超预算

### 3. ... (Judge: NO-GO, 4.0/10)

各 Agent 职责

Agent做什么不做什么
Scout搜索论文、确认代码可用性不评价论文质量
Planner生成 idea、估算资源不评审自己的 idea
Judge独立评审每个 idea不推荐"应该选哪个"
编排器协调流程、呈现结果不替用户做选择

Gate 信息

属性
默认 Gatehuman
为什么idea 选择是方向性决策,必须由用户确认
通过条件用户明确选定一个 idea

错误处理

情况处理方式
Scout 没找到足够论文扩大搜索范围(放宽时间、加更多关键词)
所有 idea 被 Judge 否掉调整研究方向,重新搜索
没有 idea 有可用 base paper降低搜索要求或换方向
GPU 预算不够跑任何 baseline立即报告用户,要么申请更多资源要么换方向
完整输出示例:Idea Card
markdown
# Idea Card: contrastive-decouple

## 一句话
通过对比学习让模型自动解耦共性特征和判别性特征,
提升细粒度识别精度且不增加推理开销。

## 动机
现有方法大多通过注意力机制定位判别区域,但忽略了
共性特征(同类目共享的特征)对表征学习的干扰。

## 方法概要
1. 在 backbone 后加投影头,将特征分为两个子空间
2. 训练时用对比损失约束:同子类近、不同子类远
3. 推理时只用判别性子空间分类(投影头丢弃,无额外开销)

## Base Paper
- 论文: "Fine-Grained Recognition via Discriminative Part Learning"
  (CVPR 2024)
- GitHub: github.com/xxx/fine-grained-dpl
- 代码状态: 可运行,最近 3 个月有维护,200+ stars
- 报告结果: CUB-200 86.8%, Stanford Cars 93.2%

## 预估资源
- 模型: ResNet-50 (~25M params)
- 数据: CUB-200 (5994 train / 5794 test)
- 训练: 2×A5000, 约 8h (100 epochs)
- 在 8×4090 24h 预算内 ✓

## 风险
- 对比损失的温度参数可能需要仔细调整
- 解耦效果可能不显著(退化为全局对比学习)

产出物

文件内容
ideas/idea-001.md ~ idea-005.md候选 idea 卡片
ideas/scores.yamlJudge 评分记录
IDEA.md汇总所有候选 idea + 评分
docs/scan-report.mdScout 的文献调研报告

进入下一阶段的条件

  • 用户选定了一个 idea
  • 该 idea 有 go 或至少 revise 的 Judge 评审
  • 该 idea 有可用的 base paper
  • GPU 预算估算在限制内

AutoResearch — Multi-agent Deep Learning Research System