面向实操者的 AI 工具基准测试

三模实测

同一个任务，交给三种 AI 工具执行，记录过程、阻碍、验证结果和成本。这里是中文读者入口，也会承接 Prompt 包、CSV 和操作笔记。

提醒：右边的分数条是种子分数——在我们跑出第一组真实 benchmark 之前用于校准布局的方向性占位。请不要拿它做购买决定。首篇有证据支撑的报告几天内上线。

最新对比

当前分数用于启动站点和校准版式，不作为最终购买建议。正式版要补齐重复运行证据和原始提示词。

可验证的本地修复，且成本信号透明

89/100，覆盖编码、研究、连续性和成本清晰度。

最精简、最地道的补丁——和官方维护者的修复一模一样

78/100，覆盖编码、研究、连续性和成本清晰度。

对 bug 理解最深——前提是你不赶时间

87/100，覆盖编码、研究、连续性和成本清晰度。