TB 三模实测

面向实操者的 AI 工具基准测试

三模实测

同一个任务,交给三种 AI 工具执行,记录过程、阻碍、验证结果和成本。这里是中文读者入口,也会承接 Prompt 包、CSV 和操作笔记。

提醒:右边的分数条是种子分数——在我们跑出第一组真实 benchmark 之前用于校准布局的方向性占位。请不要拿它做购买决定。首篇有证据支撑的报告几天内上线。

最新对比

当前分数用于启动站点和校准版式,不作为最终购买建议。正式版要补齐重复运行证据和原始提示词。

Codex

可验证的本地修复,且成本信号透明

89/100,覆盖编码、研究、连续性和成本清晰度。

Claude Code

最精简、最地道的补丁——和官方维护者的修复一模一样

78/100,覆盖编码、研究、连续性和成本清晰度。

Gemini CLI

对 bug 理解最深——前提是你不赶时间

87/100,覆盖编码、研究、连续性和成本清晰度。