快速上手
命令速查
| 命令 | 作用 | 阶段 |
|---|---|---|
/research start <方向> | 启动新研究项目 | 初始化 |
/research status | 查看当前 Pipeline Status | 任意 |
/research next | 让编排器决定并执行下一步 | 任意 |
/gate | 查看/切换当前阶段的 gate 模式 | 任意 |
/research pause | 暂停自动化,等待人工介入 | 任意 |
/research resume | 恢复自动化 | 任意 |
典型工作流
早上:启动一个新研究方向
bash
# 1. 创建项目
/research start "基于视觉语言模型的细粒度图像识别"
# 编排器会自动:
# - 创建项目目录结构
# - 调用 Scout 搜索近期相关论文
# - 调用 Planner 生成候选 idea
# - 调用 Judge 评审每个 idea
# - 等待你选择 idea
# 2. 审阅 idea 列表
# 系统会呈现 3-5 个候选 idea,每个都有 Judge 评分
# 3. 选定 idea 后,系统自动进入基线消化阶段
/research next
# Scout 精读 base paper 和代码 → 输出 5 个结构化文件
# 然后进入实验设计:Planner 制定实验计划 → Judge 审查可行性 → 你确认下午:代码实现和训练
bash
# 编排器已经知道你确认了实验计划
/research next
# 自动流程:
# - Coder 基于 base paper 代码实现修改
# - 编排器审查代码是否符合研究意图
# - Coder 编写训练脚本
# - 代码同步到远程服务器
# - 启动训练(tmux 持久化)
# - watchdog 自动监控
# 你可以去做别的事了晚上:自动化监控
训练启动后,系统自动进入两阶段监控:
- 初始看守期(前 30 分钟) — 编排器主动等待,确认训练正常启动
- 巡检模式 — CronCreate 定时检查训练状态,只在异常时通知你
bash
# 第二天早上回来
/research status
# 输出类似:
# Stage: training
# 训练状态: 已完成,GPU 0-2,wandb run_id=xxx
# 最终指标: acc=96.1 (baseline 95.5)
# 下一步: 进入结果分析阶段随时介入
你可以在任何时候打断自动化流程:
bash
# 查看当前状态
/research status
# 切换 gate 模式 — 比如在 training 阶段前加人工审批
/gate training human
# 手动告诉编排器做特定的事
# 直接用自然语言:
"分析一下 wandb 上这个 run 的 loss 曲线,看看有没有异常"
# 编排器会调用合适的 Agent 执行Gate 模式
每个阶段可以配置三种 gate 模式:
| 模式 | 行为 | 适合场景 |
|---|---|---|
human | 阶段完成后等待人工确认 | 重要决策(选 idea、确认实验计划) |
auto-judge | Judge 自动评审,通过则继续 | 代码审查、结果分析 |
auto | 阶段完成后自动进入下一阶段 | 信任度高的重复操作 |
灵活切换
不需要提前配好所有 gate。运行时随时用 /gate <stage> <mode> 切换。比如第一次跑实验时用 human,熟悉流程后切 auto-judge。
三个运行模式
这三个模式是正交的,可以自由组合:
| 模式 | 控制维度 | 说明 |
|---|---|---|
| autopilot | 阶段间 | 阶段完成后是否自动推进到下一阶段 |
| ralph | 阶段内 | 阶段内的执行-检查-修正循环 |
| ultrawork | 并行度 | 是否同时执行多个独立任务 |
bash
# 全手动:每一步都确认
/mode autopilot=off ralph=off ultrawork=off
# 全自动:信任系统自动推进
/mode autopilot=on ralph=on ultrawork=on
# 推荐:阶段间手动确认,阶段内自动循环
/mode autopilot=off ralph=on ultrawork=on