创刊词 · 2026-05-29 · 阅读约 5 分钟

为什么做 TripleBench

网上几乎所有 "Codex vs Claude Code vs Gemini CLI" 类对比文，作者本人只深用过其中一家。我们三家都同台实测。这篇说为什么这件事重要，以及我们打算怎么用它。

如果你花一个晚上搜 "Codex vs Claude Code vs Gemini CLI"，你会发现网上的对比文章基本是三种长相：

第一种，厂商博客。A 厂自己的团队写为什么 A 比 B 和 C 强，用的是 A 团队自己挑的 benchmark。B 和 C 永远看上去更差。读完你什么都没学到。

第二种，单用户体感文。一个开发者付费用了三家中的一家，写文章说为啥自己这家好。剩下两家是凭二手印象或者免费试用 5 分钟得出的判断。这种文章读起来诚实，可能也确实诚实，但它没法告诉你你真正想知道的事——三家工具被推到舒服区之外、做你真实工作那些活时，分别长什么样。

第三种，AI 写的 SEO 农场。某个你听都没听过的网站发了"完整对比指南"，整篇文章是另一个 AI 写的。每段都在打太极。"结论"是"三家都不错，建议你都试试"。文章存在的目的是排谷歌搜索，不是帮你做决定。

如果你是个工程师，正要为一个月 $100 美金的订阅做选择，这三种文章对你来说都没用。

选错的代价

这三家工具，到真正实用的付费档，每月每个座位 $20 到 $200 美金不等。一个 5-10 人的小团队乘下去就是真金白银。更糟的是：选错意味着你的团队是围着这个 agent 工作，而不是跟它一起工作。和工具打架的生产力损失比订阅费更大，但更难量化。

而选对取决于你真实在做什么。如果你一周大部分时间在写 React 组件，那家在 Python 大型迁移上爆杀的工具对你没意义。如果你在一个 Rails 单体仓库里搬砖，那家在小型独立 Go 服务上拿冠军的工具也对你没意义。真正值得问的问题永远不是"哪家最强"，而是"哪家最适合我做的这种活"。

这个问题只能用一种方法回答：拿每家工具去跑长得像你真实工作的任务。这恰好是没人公开做的事。

这里跟其他地方哪儿不一样

TripleBench 就是把三家工具放到同一个任务上同台跑，记录发生了什么。就这么简单。这就是全部的卖点。

每一期 benchmark 都有三件事你可以自己复核：

Prompt 完全一样。可复制粘贴。三家工具拿到的逐字逐句相同。
起点仓库完全一样。固定到某个 commit，公开仓库，你可以 clone 下来重跑一遍。
成功标准完全一样。一套这些 agent 没见过的留存测试集，跑在它们改完的代码上，不让人手动救场。

每次跑变化的只有 agent 这个变量。Prompt 风格不变，工作环境不变，人在旁边催它过坑也不会有。Claude Code 问澄清问题，我们让它问；Codex 不问，我们也让它不问。我们 benchmark 的是 agent 整体，包括它的产品体验——不是被精心剪裁的、只活在宣传片里的版本。

我们不做什么

我们不会跑那种刻意让某家工具好看的"合成"benchmark。我们选的任务来自公开开源项目的真实 issue、真实 PR、真实重构——可以追溯，可以验证。如果任务是"解这道 LeetCode"，三家 agent 训练时大概都见过，结果毫无意义；如果任务是"修上周这个真实项目上提的某个具体 issue"，就难灌水多了。

我们不藏失败的跑次。如果某家工具烧了 40 分钟产出一段坏代码，我们公开。如果某家直接拒绝执行，我们也公开。失败的形状往往比成功的形状信息量更大。

我们不接厂商的联盟广告，也不收厂商的钱、免费额度或发布前预览。这个站靠数字小商品（原始 prompt 集、CSV 数据、操作笔记）和未来可能的付费订阅赚钱——永远不靠告诉你买"给我们分钱最多"的那家工具。

谁在跑这件事

这个站由 zgy（周桂炎）运营。AI 工具负责组织测试、起稿、维护 benchmark 库——但每一次 CLI agent 都是 zgy 在真实工作台上亲自跑、捕获 log，所有内容上线前由真人审一遍。

我们把这件事讲在前面，是因为我们觉得另一种做法——AI 策展的内容假装是真人写的——对公开互联网是有害的。AI 很擅长把 benchmark 数据组织成可读散文。它不擅长判断哪个 benchmark 值得跑，也不擅长发现结果可疑。人在闭环里这件事，是这个站有用、而不只是又一个内容农场的原因。

下一步

第一个真正的 benchmark 已经在跑：一个开源仓库里大约两千行的 Python 遗留模块重构。本周内三家 agent 都会跑一遍。文章几天内就会上这个站，附带完整 prompt、log、diff 和评分。

在那些有证据支撑的 benchmark 公布之前，你在这个站上看到的分数是 种子分数：用于校准布局和评分规则的方向性占位。它们都明确标了。请不要拿它们做购买决定。

如果你有想看的 benchmark 任务——来自你真实工作的——欢迎在 GitHub 仓库开 issue。我们不保证全跑，会优先选那些看起来"别的人也在做"的任务。

—— zgy，一个在广州的工程师（AI 帮了不少忙）。