Stage 2: 基线消化 (Baseline Digestion)

进入时手里有什么

用户选定的 idea 卡片（含 base paper 和资源估算）
Scout 的 文献调研报告
Base paper 的 论文 PDF 和 GitHub 代码仓库

阶段目标

Scout 精读 base paper 和代码，输出 5 个结构化文件到 .omc/research/baseline/。这些文件为后续的 Planner（实验设计）和 Coder（代码实现）提供完整的 baseline 知识基础。

具体步骤

mermaid

graph TD
    A[选定的 Idea + Base Paper] --> B[Scout: 精读论文]
    B --> C[Scout: 精读代码仓库]
    C --> D[Scout: 生成 5 个结构化文件]
    D --> E[写入 .omc/research/baseline/]
    E --> F[进入 Design 阶段]

Step 1: 精读论文

执行者: Scout (Gemini)

Scout 精读 base paper 全文，重点关注：

核心方法的技术细节（不是摘要级别的概述）
实验设置的每一个细节（数据集、模型、超参数、训练策略）
消融实验的结论
论文中承认的局限性

Step 2: 精读代码

执行者: Scout (Gemini)

Scout 阅读 base paper 的代码仓库，重点关注：

项目结构和依赖关系
核心模块的实现方式
训练脚本和配置文件
README 中的复现指南
代码与论文描述的差异（如果有）

Step 3: 生成结构化文件

执行者: Scout (Gemini)

Scout 将精读结果整理为 5 个标准化文件。

产出物

文件	内容	主要消费者
`summary.md`	论文核心贡献、方法概述、主要结果的结构化摘要	Planner
`experiments.md`	完整的实验设置：数据集、模型配置、超参数、训练策略、评估指标	Planner
`method-details.md`	方法的技术细节：公式、算法流程、模块设计、损失函数	Coder
`code-notes.md`	代码仓库分析：项目结构、核心文件、关键类/函数、依赖版本	Coder
`reproduction-checklist.md`	复现检查清单：环境配置、数据准备、训练命令、预期结果、已知问题	Coder

所有文件写入 .omc/research/baseline/ 目录。

文件详情

summary.md

markdown

# Baseline Summary

## 论文信息
- 标题: xxx
- 会议: CVPR 2024
- 代码: github.com/xxx

## 核心贡献
1. ...
2. ...

## 方法概述
...

## 主要结果
| 数据集 | 指标 | 结果 |
|--------|------|------|
| CUB-200 | top-1 acc | 86.8% |

## 局限性
- ...

experiments.md

markdown

# Baseline 实验设置

## 数据集
- 名称: CUB-200-2011
- 训练集: 5994 images
- 测试集: 5794 images
- 预处理: resize 448, random crop, horizontal flip

## 模型
- Backbone: ResNet-50 (ImageNet pretrained)
- 修改: ...

## 训练配置
- Optimizer: SGD, lr=0.01, momentum=0.9, weight_decay=5e-4
- Scheduler: CosineAnnealing, T_max=200
- Batch size: 16
- Epochs: 200
- GPU: 1× V100

## 评估指标
- top-1 accuracy
- top-5 accuracy

reproduction-checklist.md

markdown

# 复现检查清单

## 环境
- [ ] Python 3.8+
- [ ] PyTorch 1.12+
- [ ] 其他依赖: requirements.txt

## 数据准备
- [ ] 下载 CUB-200-2011 数据集
- [ ] 数据目录结构: ...

## 训练
- [ ] 命令: python train.py --config configs/cub200.yaml
- [ ] 预期训练时间: ~6h on 1× V100
- [ ] 预期最终指标: top-1 acc ≈ 86.8%

## 已知问题
- data augmentation 的 resize 后需要归一化（见 issue #42）

各 Agent 职责

Agent	做什么	不做什么
Scout	精读论文和代码，输出结构化文件	不做价值判断，不设计实验
编排器	分派任务，确认文件生成完毕	不参与精读过程

Gate 信息

属性	值
默认 Gate	`auto`
为什么	这是纯信息提取阶段，不涉及主观决策
通过条件	5 个文件全部生成且非空

为什么是 auto gate？

Baseline Digestion 是纯粹的信息提取和结构化工作。Scout 不需要做任何判断性决策 — 它只是把论文和代码中已有的信息整理成标准格式。因此不需要人工审批或 Judge 评审。

消费者

产出的 5 个文件有明确的下游消费者：

Planner 消费 summary.md 和 experiments.md — 用于制定 Research Contract 和实验计划
Coder 消费 method-details.md、code-notes.md 和 reproduction-checklist.md — 用于代码实现和 baseline 复现

mermaid

graph LR
    S[Scout 产出] --> SM[summary.md]
    S --> EM[experiments.md]
    S --> MD[method-details.md]
    S --> CN[code-notes.md]
    S --> RC[reproduction-checklist.md]
    
    SM --> P[Planner]
    EM --> P
    MD --> C[Coder]
    CN --> C
    RC --> C

错误处理

情况	处理方式
论文 PDF 无法获取	Scout 通过联网搜索替代来源
代码仓库不可用	回退到 Ideation，换一个有可用代码的 base paper
代码与论文描述不一致	在 code-notes.md 中标注差异，不做判断
依赖版本过旧无法安装	在 reproduction-checklist.md 中标注，由 Coder 后续处理

进入下一阶段的条件

.omc/research/baseline/ 下 5 个文件全部存在
每个文件内容非空且格式正确
reproduction-checklist.md 包含完整的环境和训练命令

Stage 2: 基线消化 (Baseline Digestion) ​

进入时手里有什么 ​

阶段目标 ​

具体步骤 ​

Step 1: 精读论文 ​

Step 2: 精读代码 ​

Step 3: 生成结构化文件 ​

产出物 ​

文件详情 ​

summary.md ​

experiments.md ​

reproduction-checklist.md ​

各 Agent 职责 ​

Gate 信息 ​

消费者 ​

错误处理 ​

进入下一阶段的条件 ​

Stage 2: 基线消化 (Baseline Digestion)

进入时手里有什么

阶段目标

具体步骤

Step 1: 精读论文

Step 2: 精读代码

Step 3: 生成结构化文件

产出物

文件详情

summary.md

experiments.md

reproduction-checklist.md

各 Agent 职责

Gate 信息

消费者

错误处理

进入下一阶段的条件