swe-bench – 冯金伟博客园

深度揭秘OpenAI如何让GPT-5“技术性”超越Claude：悄悄跳过最难的23道题

几天前，OpenAI发布会上，奥特曼宣布GPT-5登顶了，号称代码能力全球第一。但发布会上搞了一个大乌龙，52.8＞69.1=30.8？于是，OpenAI那些年薪上亿的天才们做的一张表格火遍了全世 … 继续阅读深度揭秘OpenAI如何让GPT-5“技术性”超越Claude：悄悄跳过最难的23道题

GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

别急着用GPT-5编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的SWE-bench Verified，但货不对板，只用了477个问题。什么意思呢？我们知道，SWE-bench … 继续阅读 GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的