Stage 1: 选题 (Ideation)
进入时手里有什么
- 用户给定的研究方向(一句话描述,如"基于视觉语言模型的细粒度图像识别")
- 全局基础设施配置(GPU 预算、可用服务器)
- 空的项目目录结构
阶段目标
从模糊的研究方向,产出一个通过评审的、有 base paper 支撑的、在预算内可行的 idea。
具体步骤
mermaid
graph TD
A[用户给出研究方向] --> B[Scout: 文献调研]
B --> C[Planner: 生成候选 idea]
C --> D[Judge: 评审每个 idea]
D --> E{有 go 的 idea?}
E -->|有| F[呈现给用户选择]
E -->|全部 no-go| G[调整方向重新搜索]
F --> H[用户选定 idea]
H --> I[进入 Baseline Digestion 阶段]
G --> BStep 1: 文献调研
执行者: Scout (Gemini)
编排器给 Scout 发搜索指令:
搜索 2023-2025 年细粒度图像识别领域的论文。
关注 CVPR / ICCV / NeurIPS / ICML / ECCV。
重点搜索:
- 使用对比学习/自监督学习的方法
- 有开源代码的论文
- 报告了 CUB-200 / Stanford Cars / FGVC Aircraft 结果的论文Scout 返回论文列表,每篇包含标题、方法摘要、主要结果和代码链接。
Step 2: 生成候选 Idea
执行者: Planner (Claude Opus)
Planner 收到 Scout 的调研结果,生成 3-5 个候选 idea。每个 idea 必须包含:
- 一句话描述
- 技术路线概要
- Base paper(论文 + GitHub + 确认代码可用)
- GPU 需求估算
- 风险评估
Base Paper 是硬要求
没有 base paper 的 idea 不予评审。Base paper 必须同时是代码基础、实验基准和比较对象。
Step 3: 独立评审
执行者: Judge (Codex)
Judge 独立评审每个 idea,不知道 Planner 的偏好和推理过程。评审维度:
| 维度 | 问什么 |
|---|---|
| 可行性 | 8×4090 24h 内能跑完吗?base paper 代码能用吗? |
| 新颖性 | 和已有工作的差异在哪?不是简单的组合吗? |
| 重要性 | 如果成功,贡献足够一篇论文吗? |
| 可复现性 | 别人能按我们的描述复现吗? |
Step 4: 用户选择
编排器汇总 idea 列表和 Judge 评分,呈现给用户:
markdown
## 候选 Idea 评审结果
### 1. contrastive-decouple (Judge: GO, 7.0/10)
通过对比学习解耦共性和判别性特征
- 可行性: 8/10 | 新颖性: 6/10 | 重要性: 7/10
- Base paper: xxx (CVPR 2024), 代码可用 ✓
### 2. cross-granularity-align (Judge: REVISE, 5.5/10)
跨粒度特征对齐
- 可行性: 5/10 | 新颖性: 7/10 | 重要性: 6/10
- 风险: 训练时间可能超预算
### 3. ... (Judge: NO-GO, 4.0/10)各 Agent 职责
| Agent | 做什么 | 不做什么 |
|---|---|---|
| Scout | 搜索论文、确认代码可用性 | 不评价论文质量 |
| Planner | 生成 idea、估算资源 | 不评审自己的 idea |
| Judge | 独立评审每个 idea | 不推荐"应该选哪个" |
| 编排器 | 协调流程、呈现结果 | 不替用户做选择 |
Gate 信息
| 属性 | 值 |
|---|---|
| 默认 Gate | human |
| 为什么 | idea 选择是方向性决策,必须由用户确认 |
| 通过条件 | 用户明确选定一个 idea |
错误处理
| 情况 | 处理方式 |
|---|---|
| Scout 没找到足够论文 | 扩大搜索范围(放宽时间、加更多关键词) |
| 所有 idea 被 Judge 否掉 | 调整研究方向,重新搜索 |
| 没有 idea 有可用 base paper | 降低搜索要求或换方向 |
| GPU 预算不够跑任何 baseline | 立即报告用户,要么申请更多资源要么换方向 |
完整输出示例:Idea Card
markdown
# Idea Card: contrastive-decouple
## 一句话
通过对比学习让模型自动解耦共性特征和判别性特征,
提升细粒度识别精度且不增加推理开销。
## 动机
现有方法大多通过注意力机制定位判别区域,但忽略了
共性特征(同类目共享的特征)对表征学习的干扰。
## 方法概要
1. 在 backbone 后加投影头,将特征分为两个子空间
2. 训练时用对比损失约束:同子类近、不同子类远
3. 推理时只用判别性子空间分类(投影头丢弃,无额外开销)
## Base Paper
- 论文: "Fine-Grained Recognition via Discriminative Part Learning"
(CVPR 2024)
- GitHub: github.com/xxx/fine-grained-dpl
- 代码状态: 可运行,最近 3 个月有维护,200+ stars
- 报告结果: CUB-200 86.8%, Stanford Cars 93.2%
## 预估资源
- 模型: ResNet-50 (~25M params)
- 数据: CUB-200 (5994 train / 5794 test)
- 训练: 2×A5000, 约 8h (100 epochs)
- 在 8×4090 24h 预算内 ✓
## 风险
- 对比损失的温度参数可能需要仔细调整
- 解耦效果可能不显著(退化为全局对比学习)产出物
| 文件 | 内容 |
|---|---|
ideas/idea-001.md ~ idea-005.md | 候选 idea 卡片 |
ideas/scores.yaml | Judge 评分记录 |
IDEA.md | 汇总所有候选 idea + 评分 |
docs/scan-report.md | Scout 的文献调研报告 |
进入下一阶段的条件
- 用户选定了一个 idea
- 该 idea 有 go 或至少 revise 的 Judge 评审
- 该 idea 有可用的 base paper
- GPU 预算估算在限制内