几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。 但发布会上搞了一个大乌龙,52.8>69.1=30.8? 于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世 … Continue reading 深度揭秘OpenAI如何让GPT-5“技术性”超越Claude:悄悄跳过最难的23道题
标签: swe-bench
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
别急着用GPT-5编程了,可能它能力没有你想象中那么强。 有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。 什么意思呢?我们知道,SWE-bench … Continue reading GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的