TB 三模实测

方法论 · v1 · 2026-05-29

同题、三工具、一套验收门槛

TripleBench 用同一个具体任务去测 Codex、Claude Code 和 Gemini CLI,并记录发生了什么。这页是规则书。如果以后某篇文章和这页冲突,以本页为准——请来开 issue。

1. 任务怎么选

一个任务能上 bench,需要同时满足四个条件:

2. 每个 agent 怎么跑

  1. 固定 agent 版本。每次都记录 Codex、Claude Code、Gemini CLI 的精确 CLI 版本号 / release tag。
  2. 把工作目录重置到 pin 住的基线 commit。不留前一次跑的残留。
  3. 粘贴同一个 prompt。逐字一致。不会为某家工具改措辞让它好过一点。
  4. 让 agent 自己跑。我们不"救场"。除非 agent 主动问,否则不补充上下文。
  5. 停止条件:agent 自己声明完成;agent 卡住问了我们不会回答的问题;或者撞上 60 分钟的墙钟上限。
  6. 保存完整 transcript、最终 diff、耗时。跑验收门槛,记 pass/fail。

3. 评什么

每次跑产出 benchmark 表里的一行。列如下:

维度测的是什么怎么打分
编码执行 agent 是否正确地改了代码并自己验证? 留存门槛 pass/fail。如果差一个具体 check 就过,给部分分并备注。
研究质量 任务要求理解上下文(issue 线程、文档、相邻代码),agent 是否找到并用对了材料? 对照每个任务公开的 checklist 打 0-100 编辑分。checklist 也公开。
工作流连续性 agent 是否保留状态、能从阻碍中恢复、能干净地交接? 看 transcript 给编辑分:跑到哪里有没有总结,仓库有没有留在可工作状态,阻碍解释清楚没。
成本透明度 能不能从这次跑的信号推算下一次大概要花多少? 标"透明 / 部分 / 不透明"。透明意味着工具在跑的过程中报告了 token 数或会话分钟数。

4. "适合做什么"那一行

每家工具会得到一句一行的"适合做什么"评语。这是编辑判断,不是定量指标。它捕捉的是这次跑的总体感受,不只是过没过门槛。我们有时会判错;随着跑次累积,这些评语会被修订。

5. 每次跑公开什么

6. 我们刻意不做什么

7. 利益冲突声明

我们独立完成评测,不接受被 benchmark 厂商提供的金钱、免费额度、免费座位、或者发布前预览权限。如果有一天这件事变了,我们会在这页上写清楚——在受影响那篇报告发布之前。这个站靠数字小商品(原始 prompt、CSV 导出、操作笔记)和未来可能的付费订阅赚钱,永远不靠指向被测工具的联盟链接。

8. 为什么我们坦白 AI 协助这件事

这个站由 zgy 运营。AI 工具帮忙组织数据、起草文稿,但实际 benchmark 由真人跑、每个公开分数由真人审、上线前由真人签字。我们说在前面,是因为我们觉得另一种做法——把 AI 策展的站伪装成真人写的——是对开放互联网的污染。AI 擅长把 benchmark 数据组织成可读散文;它不擅长判断哪个 benchmark 值得跑。人在闭环里这件事,才是让这个站值得读、而不是又一个内容农场的原因。

9. 这套方法论的版本

这页是方法论 v1。当我们修改评分表、权重、或发布规则时,会切一个新版本、归档旧的,并在每篇报告里标注它当时遵循的方法论版本。已发布的旧分数不会被悄悄重打。

最近更新:2026-05-29 · 不同意?欢迎在 GitHub Issues 里讨论。