Codex
可验证的本地修复,且成本信号透明
89/100,覆盖编码、研究、连续性和成本清晰度。
面向实操者的 AI 工具基准测试
同一个任务,交给三种 AI 工具执行,记录过程、阻碍、验证结果和成本。这里是中文读者入口,也会承接 Prompt 包、CSV 和操作笔记。
提醒:右边的分数条是种子分数——在我们跑出第一组真实 benchmark 之前用于校准布局的方向性占位。请不要拿它做购买决定。首篇有证据支撑的报告几天内上线。
当前分数用于启动站点和校准版式,不作为最终购买建议。正式版要补齐重复运行证据和原始提示词。
可验证的本地修复,且成本信号透明
89/100,覆盖编码、研究、连续性和成本清晰度。
最精简、最地道的补丁——和官方维护者的修复一模一样
78/100,覆盖编码、研究、连续性和成本清晰度。
对 bug 理解最深——前提是你不赶时间
87/100,覆盖编码、研究、连续性和成本清晰度。