ZON
DDeerFlow Benchmark Contract

Best Minds · David Allen / Charity Majors / Peter Drucker

先冻结同题双跑,再决定 DeerFlow 值不值得继续接线

这一页不是再回答“DeerFlow 好不好”,而是把下一次真正该跑的 benchmark contract 固定下来。按 David Allen 的方式,先定义唯一闭环;按 Charity Majors 的方式,先让对照可观测;按 Peter Drucker 的方式,先找真正缺口,而不是继续堆新方向。

OpenClaw baseline Benchmark Contract same input / same output / same scorecard DeerFlow sidecar 判断前先对齐实验,不先扩大战线
这次真正要新增的不是更多结论,而是一张任何后续执行都必须遵守的对照合同。

当前上下文

这不是新的路线,而是把第一份 DeerFlow 判断和上一份 proof-chain 报告收成可执行实验。
2026-03-26 DeerFlow fit 2026-04-11 proof-chain next step Now benchmark contract sidecar conclusion three gaps named one test frozen
时间线上最自然的第三步,不是再扩张判断,而是把 benchmark 从“建议”变成“合同”。

What The Best Minds Would Say

Mind Paraphrase Action Here
David Allen 先把同一类输入收成唯一 clarify loop,再去谈系统扩张。 只选一个 benchmark task,不并行跑 3 个 PoC。
Charity Majors 没有可观测指标的对照,不算 benchmark。 先冻结输入、输出、评分、人工干预记录。
Peter Drucker 真正缺的是可运行对照,而不是更多可能性。 先补 contract,再决定是否继续 DeerFlow 接线。

要点 1:一次只冻住一个 benchmark

先不要同时跑调研、Feishu 入口和技能互操作。那会把“有没有对照”重新冲散。
Which PoC runs first? Research Report chosen first Feishu Entry later Skills Interop later
旧报告里列过 3 条 PoC,但这一次只应该选择 `深度调研报告` 这一条来冻结实验。

Decision

选 `PoC 1 · 深度调研报告`,其余两条先不跑。

  1. 现成输入资产最多,OpenClaw 侧已经有统一内容对象。
  2. 最容易做到 DeerFlow 和 OpenClaw 吃同一题、交同一类输出。
  3. 最能直接检验“sidecar runtime 到底值不值得继续养”。

要点 2:同一输入包先冻结,不允许临场改题

没有同一输入包,后面的质量差、稳定性差、维护成本差都无法比较。
content-current-latest.json single source input pack topic cluster choose 1 real topic evidence refs same supporting files No ad-hoc extra context during the run same pack in, same report question out
最自然的输入包不是 hiring/portfolio 文案,而是 OpenClaw intake 里已经统一过的内容对象。

Chosen Input Pack

这次 benchmark 的唯一输入包,先固定为 topics/openclaw-info-intake-system-closure/content-current-latest.json 对应的 1 个真实主题簇,必要时再附带该 topic 已公开的 supporting report。

  • 先选 1 个真实 topic cluster,不从 hiring 页面文案倒推题目。
  • 输入包一旦选定,OpenClaw 和 DeerFlow 都只能吃这一包。
  • 运行过程中不得额外补充只属于一边的上下文。

要点 3:输出格式和评分表必须先写死

没有统一输出 contract,就会重新退回“感觉哪边更顺手”。
quality sources stability complexity maintenance OpenClaw DeerFlow notes
这次不先比较“功能多寡”,只比较对当前题目最有用的 6 个维度。

Frozen Output Contract

  1. 输出必须是一份带 sources 的调研/归纳报告。
  2. 报告必须包含结论、证据链、下一步动作。
  3. 每轮都要附一张同结构 scorecard。
6 个评分维度:报告质量、证据链完整度、运行稳定性、链路复杂度、人工干预成本、长期维护成本。

要点 4:先跑 OpenClaw baseline,再跑 DeerFlow sidecar

没有 baseline,就连 DeerFlow 是改进、持平还是退步都说不清。
Lane A · OpenClaw baseline Lane B · DeerFlow sidecar ingest pack generate report record scorecard same ingest same report ask same scorecard
OpenClaw 先跑,是为了把“现在你的主链路表现如何”固定下来,再给 DeerFlow 一个干净的 sidecar 对照位。

Execution Order

  • 第一轮先用 OpenClaw 跑出 baseline,完整记录输入、输出、耗时和人工干预点。
  • 第二轮 DeerFlow 必须吃同一包输入、交同类输出,不能换题补题。
  • 最后只收一张 scorecard,不急着公开发布 A/B 报告。

要点 5:当前成功标准不是“跑通 DeerFlow”,而是冻结阻塞点

如果本地还没有 DeerFlow runtime 痕迹,那这次真正该交付的是一张可执行 contract,而不是伪造运行记录。
Blocker no runtime spec exists input / output / scorecard runtime later first command still missing
这页的诚实边界很明确:没有本地 DeerFlow runtime,就只冻结实验合同,不假装已经做过实测。

Main Blocker

本地没有发现 DeerFlow repo、脚本、依赖声明或 run log。

  • 第一阻塞:没有 DeerFlow 第一条可执行命令。
  • 第二阻塞:还没从 content_current 里选定唯一 topic 作为输入包。
  • 第三阻塞:还没把 scorecard 字段收成一次性可复用模板。

现成资产

这次 benchmark 不是从零开始,它只是在等一个更硬的执行入口。
DeerFlow fit report sidecar conclusion already public proof-chain report three missing links named content_current topic best real input pack clarify / writeback already real on OpenClaw side runtime gap DeerFlow entry still missing
资产并不稀缺,真正稀缺的是把它们收成同一张实验卡的动作。
Asset Why It Matters
DeerFlow fit 已经明确 DeerFlow 更适合作 sidecar runtime,而不是替主链。
proof-chain next step 已经把 benchmark、clarify、hiring proof 这 3 条缺口说清楚。
OpenClaw intake closure 提供统一内容对象,是最自然的 benchmark 输入包来源。
clarify plan 说明 OpenClaw 一侧已经有真实中间层方向,不需要从零搭对照面。

评分维度

如果只剩几分钟,先看这张雷达:它定义了这次 benchmark 真正比较什么。
quality sources stability maintenance human cost complexity
这张雷达只是字段提醒,不是结果图。真正结果要等两边都跑过同题之后再填。

Field Definitions

  • quality:结论是否清楚、结构是否稳、能否直接二次使用。
  • sources:证据链是否完整、输入到结论是否可追溯。
  • stability:长任务是否容易卡住、中断或跑偏。
  • complexity:从拿到输入到拿到结果一共需要几步。
  • human cost:中途需要你接几次手、补几次判断。
  • maintenance:为了保留这条能力,后续要照顾多少额外系统负担。

最小 Runbook

这一步先只冻结流程,不伪造 DeerFlow 命令。没有 runtime,就明确写成 blocker。

Execution Contract

1. 从 content-current-latest.json 选 1 个真实 topic cluster
2. 把 benchmark prompt 固定成同一句
3. OpenClaw 先跑 baseline,记录输入 / 输出 / 耗时 / 干预点
4. DeerFlow 再吃同一输入包,交同类报告
5. 用同一张 scorecard 评分
6. 若 DeerFlow runtime 不存在,本轮停在 blocker 明示,不补写假结果
pick pack freeze prompt run OpenClaw run DeerFlow score publish later
只有当第 4 步真的存在可执行 DeerFlow 命令时,这张梯子才继续往上爬。

下一步

按这张 contract,后面就不该再讨论“要不要 benchmark”,而只讨论“输入包和 DeerFlow 第一条命令是什么”。

Next 1

从 content_current 里挑 1 个唯一 topic cluster

这一步决定 benchmark 不再发散,也决定 OpenClaw baseline 的真实题目是什么。

Next 2

补 DeerFlow 第一条可执行命令

当前本地没有发现任何 DeerFlow runtime 痕迹,这是进入实测前唯一必须先补的入口。

Next 3

再决定要不要把结果接进 hiring proof bundle

benchmark 结果出来后,才值得把它接进 hiring/portfolio 的证据入口,而不是现在就空挂链接。

Sources

只列当前这一页直接依赖的现成证据,不发明不存在的 DeerFlow run log。
把 DeerFlow 的下一步从抽象讨论收成一张可执行 benchmark 合同:先固定同题双跑的输入、输出、评分与 blocker,再决定要不要继续接线。
— One small system