基准表
第一批种子分数
这些分数用于站点上线和报告结构校准。后续要用真实重复测试替换,并链接原始运行记录。
| 工具 | 编码 | 研究 | 连续性 | 成本清晰度 | 适合场景 |
|---|---|---|---|---|---|
| Codex | 96 | 85 | 85 | 90 | 可验证的本地修复,且成本信号透明 |
| Claude Code | 92 | 80 | 90 | 50 | 最精简、最地道的补丁——和官方维护者的修复一模一样 |
| Gemini CLI | 95 | 95 | 92 | 65 | 对 bug 理解最深——前提是你不赶时间 |
基准表
这些分数用于站点上线和报告结构校准。后续要用真实重复测试替换,并链接原始运行记录。
| 工具 | 编码 | 研究 | 连续性 | 成本清晰度 | 适合场景 |
|---|---|---|---|---|---|
| Codex | 96 | 85 | 85 | 90 | 可验证的本地修复,且成本信号透明 |
| Claude Code | 92 | 80 | 90 | 50 | 最精简、最地道的补丁——和官方维护者的修复一模一样 |
| Gemini CLI | 95 | 95 | 92 | 65 | 对 bug 理解最深——前提是你不赶时间 |