TB 三模实测

基准表

第一批种子分数

这些分数用于站点上线和报告结构校准。后续要用真实重复测试替换,并链接原始运行记录。

工具 编码 研究 连续性 成本清晰度 适合场景
Codex 96 85 85 90 可验证的本地修复,且成本信号透明
Claude Code 92 80 90 50 最精简、最地道的补丁——和官方维护者的修复一模一样
Gemini CLI 95 95 92 65 对 bug 理解最深——前提是你不赶时间