命令与交互
AutoResearch 围绕自然对话设计。你可以用斜杠命令精确控制,用魔法关键词激活执行模式,也可以直接用自然语言描述需求。编排器理解这三种方式,并分发给合适的 Agent 执行。
斜杠命令
斜杠命令提供明确、可预测的系统控制。
| 命令 | 作用 |
|---|---|
/research init <name> <desc> | 创建新研究项目,指定名称和描述 |
/status | 显示当前项目阶段、gate 配置和最近任务 |
/gate | 查看所有阶段的 gate 配置 |
/gate auto | 所有阶段设为全自动 |
/gate human | 所有阶段需要人工审批 |
/gate default | 恢复默认 gate 配置 |
/gate <stage> <type> | 修改特定阶段的 gate(如 /gate training auto) |
命令在编排器会话中运行
所有命令都发给编排器(主 Claude Code 会话)。编排器负责解析并分发给对应的 Agent。你不需要直接和 Agent 对话。
/research init
在 ~/Claude/Harness/ 下创建项目目录结构,初始化 pipeline.yaml,进入 idle 状态。编排器准备好接收你的研究方向。
/research init sparse-moe "Sparse MoE training efficiency"/status
打印当前项目的快照,随时了解项目进度。
> /status
Project: sparse-moe
Stage: training
Gate config: ideation=human, design=human, training=auto, ...
Active: exp-003 training on ic2 (step 45000/100000, loss 2.31)
Last event: CronCreate patrol — all healthy (12 min ago)/gate
Gate 控制每个阶段需要多少人工参与。你可以随时修改,即使在流水线运行过程中。
/gate # 查看所有 gate
/gate auto # 全部自动
/gate human # 全部需要审批
/gate default # 恢复默认
/gate implementation auto-judge # 只改这个阶段魔法关键词
直接在对话中输入这些关键词来激活执行模式。它们是正交的——可以自由组合。
| 关键词 | 效果 |
|---|---|
autopilot | 自动推进流水线阶段,仅在 gate 处暂停 |
ralph | 在当前阶段内循环执行直到完成 |
ultrawork | 并行执行多个独立任务 |
cancelomc | 停止当前活动模式 |
在关键词后添加描述
你可以在关键词后附加描述,帮助系统理解"完成"意味着什么。这对 ralph 和 autopilot 尤其有用。
autopilot: 从 ideation 做到论文初稿
ralph: 训练 ResNet-50 直到 top-1 超过 76%
ultrawork: 并行跑 ablation A/B/Cautopilot
驱动流水线跨阶段前进。在每个阶段边界,编排器检查 gate:
- human gate → 暂停等待你确认
- auto-judge gate → Judge 评估并决定
- auto gate → 直接继续
Autopilot 不会跳过 gate。它只是省去你在每个阶段后手动输入"下一步"。
ralph
取名自"再来一遍"的理念。Ralph 在当前阶段内进入紧凑循环:
- 执行任务
- 评估结果(通过 Judge 或自检)
- 如果没完成,修复问题,回到第 1 步
- 如果完成,退出循环
Ralph 非常适合迭代型任务:训练直到指标达标、修改论文直到审稿通过、修复代码直到测试全绿。
ultrawork
生成多个并行 Agent 处理独立任务。编排器拆分工作,分配给不同 Agent,全部完成后汇总结果。
非常适合消融实验、并行文献搜索、同时运行多个实验。
cancelomc
紧急刹车。停止当前活动模式(autopilot、ralph 或 ultrawork),回到手动控制。正在执行的 Agent 会优雅地完成当前步骤。
自然语言
你不需要记命令。直接描述你想做的事——编排器会把你的意图映射到正确的操作。
| 你说的话 | 系统做的事 |
|---|---|
| "新建研究项目,方向是 sparse MoE" | 创建项目,进入 IDEATION 阶段 |
| "搜一下 MoE 训练效率的最新论文" | 派遣 Scout(Gemini)搜索文献 |
| "选第三个 idea" | 选定 idea,推进阶段 |
| "开始训练" | 派遣 Coder 启动训练 |
| "写论文" | 派遣 Writer,携带干净上下文 |
| "停一下,learning rate 太大了" | 中断当前任务,你接管控制 |
中英文混用没问题
编排器处理中文、英文和混合输入。用你觉得自然的语言就好。
使用场景
场景 1:早上交互式选题
你有一个模糊的方向,想交互式探索。把 gate 设为 human,保持在回路中。
> cd ~/Claude/Harness && mkdir sparse-moe && cd sparse-moe
> /research init sparse-moe "Sparse MoE training efficiency"
→ Project initialized. Stage: idle
> 搜索 MoE 训练效率相关的最新工作
→ scout (Gemini) searching...
→ 5 candidate ideas proposed
→ judge (Codex) evaluating in parallel...
→ Results ready. Here are the 5 ideas with scores...
> 第三个不错,选这个
→ idea-003 selected, scout finding baseline...
→ Baseline found: "EfficientMoE" (NeurIPS 2025, code: github.com/xxx)
> /gate default
→ Gates set to default configuration
> 确认 baseline,开始设计实验
→ [Baseline Digestion] scout digesting baseline paper and code...
→ 5 structured files written to .omc/research/baseline/
→ [Design] planner designing experiment...
→ Experiment plan ready. Please review...早上适合协作
选题阶段,你的领域专长加上系统的广度,比任何一方单独行动都能产出更好的 idea。保持参与。
场景 2:晚上自动过夜
实验设计已审核通过。把 gate 设为 auto,让系统在你睡觉时工作。
> /gate auto
→ All gates set to auto
> autopilot: 实现代码、跑训练、分析结果
→ Entering autopilot mode...
→ [coder implementing...]
→ [coder launching training...]
→ [Phase 1 active watch... stable after 15 min]
→ [Phase 2 CronCreate patrol...]
→ Telegram: "Training complete. Results: 78.3% top-1 (baseline 76.0%)"
→ Telegram: "Judge verdict: PASS. Claims supported."早上记得查看
Autopilot 在 human gate 和错误超过重试上限时会暂停。起床后跑 /status 看看进展。
场景 3:随时介入
你可以随时插手,即使在 autopilot 运行中。人工输入始终优先于所有自动化决策。
> 停一下,learning rate 改成 1e-4 重跑
→ Interrupting... coder adjusting params...
> /gate human
→ All gates set to human. Full manual control.
> /status
→ Project: sparse-moe
→ Stage: training
→ Gate config: all human
→ Active: exp-003 training on ic2你始终拥有最高权限
系统会暂停,吸收你的输入,然后继续。不会丢失任何工作。你可以在任何粒度、任何时间点在手动和自动控制之间切换。
场景 4:Ralph 修改论文
用 ralph 循环修改论文,直到三模型审稿全部通过。
> ralph: 修改论文直到三模型审稿全通过
→ [writer revising based on review comments...]
→ [three-model re-review...]
→ [2 issues remain, writer fixing...]
→ [three-model re-review...]
→ [All three reviewers: PASS]
→ Ralph complete.Ralph 根据你提供的描述自动判断何时结束循环。在这个例子中,"完成"意味着三个模型审稿人全部返回 PASS。
场景 5:Ultrawork 并行消融实验
用 ultrawork 同时运行独立实验。
> ultrawork: 并行跑 ablation A(去掉attention) B(去掉routing) C(去掉loss term)
→ Spawning 3 parallel coder agents...
→ [coder-A running ablation A...]
→ [coder-B running ablation B...]
→ [coder-C running ablation C...]
→ All 3 ablations complete. Results collected.每个消融实验在独立的工作空间中运行。所有 Agent 完成后汇总结果。
默认 Gate 配置
默认配置在安全和自动化之间取得平衡。关键决策节点需要人工输入;日常执行自动化。
ideation: human # 必须确认 idea 选择
baseline-digestion: auto # Scout 消化文献,无需审批
design: human # 必须审核实验设计
implementation: auto-judge
training: auto-judge
analysis: human # 必须确认 claims
writing: auto-judge
review: human # 必须批准提交推荐的渐进路线
随着对系统的信任度提高,逐步开放 gate:
- 第一个项目 — 全部
human。学习系统的运作方式。 - 第二个项目 — implementation 和 analysis 设为
auto-judge。 - 成熟工作流 — training 设为
auto,implementation/analysis 设为auto-judge。 - 永远不要把 ideation 设为
auto— 你的研究品味是最宝贵的输入。
组合模式
三种执行模式是正交的。组合使用以获得不同级别的自动化:
| 组合 | 行为 |
|---|---|
仅 autopilot | 推进阶段,每个任务单 Agent |
autopilot + ralph | 推进阶段,阶段内自动修复错误 |
autopilot + ultrawork | 推进阶段,可能时并行执行 |
| 三者全开 | 最大自动化——并行执行、自动修复、自动推进 |
| 全不开 | 完全手动——你指挥每一步 |
从保守开始
先只用 ralph(阶段内循环,但手动推进阶段)。熟悉后加 autopilot。最后加 ultrawork,等你信任系统能管理并行工作负载时再用。
速查卡片
┌─────────────────────────────────────────────────────┐
│ 斜杠命令 │
│ /research init <name> <desc> 创建项目 │
│ /status 当前状态 │
│ /gate [auto|human|default] Gate 控制 │
│ /gate <stage> <type> 单阶段 gate │
│ │
│ 魔法关键词 │
│ autopilot [: 描述] 自动推进阶段 │
│ ralph [: 描述] 循环直到完成 │
│ ultrawork [: 描述] 并行执行 │
│ cancelomc 停止当前模式 │
│ │
│ 自然语言 │
│ 直接描述你想做的事。系统会搞定剩下的。 │
│ 中英文混用都可以。 │
└─────────────────────────────────────────────────────┘