TB 三模实测

创刊词 · 2026-05-29 · 阅读约 5 分钟

为什么做 TripleBench

网上几乎所有 "Codex vs Claude Code vs Gemini CLI" 类对比文,作者本人只深用过其中一家。我们三家都同台实测。这篇说为什么这件事重要,以及我们打算怎么用它。

如果你花一个晚上搜 "Codex vs Claude Code vs Gemini CLI",你会发现网上的对比文章基本是三种长相:

第一种,厂商博客。A 厂自己的团队写为什么 A 比 B 和 C 强,用的是 A 团队自己挑的 benchmark。B 和 C 永远看上去更差。读完你什么都没学到。

第二种,单用户体感文。一个开发者付费用了三家中的一家,写文章说为啥自己这家好。剩下两家是凭二手印象或者免费试用 5 分钟得出的判断。这种文章读起来诚实,可能也确实诚实,但它没法告诉你你真正想知道的事——三家工具被推到舒服区之外、做你真实工作那些活时,分别长什么样。

第三种,AI 写的 SEO 农场。某个你听都没听过的网站发了"完整对比指南",整篇文章是另一个 AI 写的。每段都在打太极。"结论"是"三家都不错,建议你都试试"。文章存在的目的是排谷歌搜索,不是帮你做决定。

如果你是个工程师,正要为一个月 $100 美金的订阅做选择,这三种文章对你来说都没用。

选错的代价

这三家工具,到真正实用的付费档,每月每个座位 $20 到 $200 美金不等。一个 5-10 人的小团队乘下去就是真金白银。更糟的是:选错意味着你的团队是围着这个 agent 工作,而不是它一起工作。和工具打架的生产力损失比订阅费更大,但更难量化。

而选对取决于你真实在做什么。如果你一周大部分时间在写 React 组件,那家在 Python 大型迁移上爆杀的工具对你没意义。如果你在一个 Rails 单体仓库里搬砖,那家在小型独立 Go 服务上拿冠军的工具也对你没意义。真正值得问的问题永远不是"哪家最强",而是"哪家最适合我做的这种活"

这个问题只能用一种方法回答:拿每家工具去跑长得像你真实工作的任务。这恰好是没人公开做的事。

这里跟其他地方哪儿不一样

TripleBench 就是把三家工具放到同一个任务上同台跑,记录发生了什么。就这么简单。这就是全部的卖点。

每一期 benchmark 都有三件事你可以自己复核:

每次跑变化的只有 agent 这个变量。Prompt 风格不变,工作环境不变,人在旁边催它过坑也不会有。Claude Code 问澄清问题,我们让它问;Codex 不问,我们也让它不问。我们 benchmark 的是 agent 整体,包括它的产品体验——不是被精心剪裁的、只活在宣传片里的版本。

我们不做什么

我们不会跑那种刻意让某家工具好看的"合成"benchmark。我们选的任务来自公开开源项目的真实 issue、真实 PR、真实重构——可以追溯,可以验证。如果任务是"解这道 LeetCode",三家 agent 训练时大概都见过,结果毫无意义;如果任务是"修上周这个真实项目上提的某个具体 issue",就难灌水多了。

我们不藏失败的跑次。如果某家工具烧了 40 分钟产出一段坏代码,我们公开。如果某家直接拒绝执行,我们也公开。失败的形状往往比成功的形状信息量更大。

我们不接厂商的联盟广告,也不收厂商的钱、免费额度或发布前预览。这个站靠数字小商品(原始 prompt 集、CSV 数据、操作笔记)和未来可能的付费订阅赚钱——永远不靠告诉你买"给我们分钱最多"的那家工具。

谁在跑这件事

这个站由 zgy(周桂炎)运营。AI 工具负责组织测试、起稿、维护 benchmark 库——但每一次 CLI agent 都是 zgy 在真实工作台上亲自跑、捕获 log,所有内容上线前由真人审一遍。

我们把这件事讲在前面,是因为我们觉得另一种做法——AI 策展的内容假装是真人写的——对公开互联网是有害的。AI 很擅长把 benchmark 数据组织成可读散文。它不擅长判断哪个 benchmark 值得跑,也不擅长发现结果可疑。人在闭环里这件事,是这个站有用、而不只是又一个内容农场的原因。

下一步

第一个真正的 benchmark 已经在跑:一个开源仓库里大约两千行的 Python 遗留模块重构。本周内三家 agent 都会跑一遍。文章几天内就会上这个站,附带完整 prompt、log、diff 和评分。

在那些有证据支撑的 benchmark 公布之前,你在这个站上看到的分数是 种子分数:用于校准布局和评分规则的方向性占位。它们都明确标了。请不要拿它们做购买决定。

如果你有想看的 benchmark 任务——来自你真实工作的——欢迎在 GitHub 仓库开 issue。我们不保证全跑,会优先选那些看起来"别的人也在做"的任务。

—— zgy,一个在广州的工程师(AI 帮了不少忙)。