期待AGI的人要失望了，GPT-5只是个精心打磨的商业化产品

界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪

从GPT-4刷新人类对AI的认知起，世界曾一度以为走到GPT-5就可能打开通往异世界的大门——等到它真正出现的这天才发现，大模型还在攀爬AGI（通用人工智能）的长梯上，不过多走了两三步而已。

北京时间8月8日凌晨，OpenAI正式发布GPT-5，它的简介是对它亮点的核心概括，但你会发现这些措辞依旧无比熟悉：“这是我们迄今为止最智能、最快、最实用的模型，具有内置思维，可将专家级智能交到每个人手中。”

GPT-5是一个统一的系统，包含一个能够解答大多数问题的智能高效模型gpt-5-main，以及一个能够解决更复杂问题的推理模型gpt-5-thinking。

OpenAI通过一个实时路由器，来分析判断用户的对话类型、复杂度、工具需求及其明确意图，比如用户在提示词中写道“认真思考一下”，模型就会切换至thinking版本。

路由器会根据用户的实际使用情况持续训练，包括用户切换模型的时间、回答偏好率以及准确率测量，并随着时间的推移不断改进。

一旦达到使用限制，每个模型的mini版本将处理剩余的查询任务。是的，它还包括gpt-5-main-mini和gpt-5-thinking-mini，以及专为开发者设置的更加高效的版本gpt-5-thinking-nano。

OpenAI计划在不久之后将这些功能集成到一个模型中。目前，GPT-5面向所有用户开放，Plus会员可获得更多使用量，Pro会员则可访问GPT-5 Pro版本，该版本具有扩展推理能力，可提供更全面、更准确的答案。

这就是GPT-5的全貌，它基本上一一对应了上一代模型。例如GPT-4o对应gpt-5-main，OpenAI o3对应gpt-5-thinking，包括各自的Pro版本和mini版本。

从性能上来说，GPT-5最突出的表现围绕“现实世界”而来。OpenAI表示，减少幻觉、提高指令执行能力和减少谄媚是它进展最明显的三个方面。

图自OpenAI官网

在AIME 2025（数学）、SWE-bench Verified（真实世界编码）、MMMU（多模态理解）、GPQA（研究生水平推理）等基准测试中，GPT-5已经是当之无愧的SOTA，甚至在AIME 2025中拿下了100分。

GPT-5还在Humanity’s Last Exam（人类最后的知识测试）上超过了自己的ChatGPT Agent。HLE是一个极难的学术级别测试，涵盖数学、自然科学、人文等多个领域的高难度封闭题，ChatGPT Agent在HLE上因为多工具协作和并行策略更有优势，但GPT-5作为单体模型依然拿下不错成绩，这说明它自身有更强的思考能力。

图自OpenAI官网

刷榜是结果但不是目的，正如OpenAI所说，GPT-5能力升级的核心表现就是降低幻觉，更加靠近现实世界。

GPT-5现在可以更准确地回答现实世界的疑问。在ChatGPT生产流量中代表匿名提示的网页搜索中，GPT-5回答包含事实错误的概率比GPT-4o低约45%；在思考时，其答案包含事实错误概率比OpenAI o3低约80%。这是由于OpenAI添加了新的评估方法，以对开放式事实性进行压力测试。

团队测量了GPT- 5在思考开放式事实搜索提示时的幻觉率，这些提示词来自两个公开的事实性基准：LongFact和FActScore。在这些基准测试中，“GPT-5-thinking”的幻觉数量比o3少了约六倍。

另外，它不会像以前那样谄媚了。与GPT-4o相比，GPT-5的亲切感会有所减弱，不必要的表情符号也更少，后续的互动也会更细腻周到。

降本增效也很重要。据OpenAI，GPT-5相比OpenAI o3，在视觉推理、代理编码和研究生水平的科学问题解决等功能上，输出token数量减少了50%至80%。更关键的是，价格也集体打下来了。

图自Twitter（单位每百万tokens）

在实际应用上，GPT-5把编程能力提升到了新高度。一名AI领域从业人士对界面新闻记者表示，从一些常规测试来看，GPT-5的表现很难评断有多少提升，因为在实际使用中已经很少有人需要从0开始写代码，但对于一些代码修改型任务，它明显会更精准。

另有一名已经使用GPT-5的用户对界面新闻记者表示，其身边人共同探讨的结论是，这次发布可能还是够不上一个大版本更新，“更像是从iPhone 4到iPhone 4S”。

现在局面已经很明确，期待已久的GPT-5大概率会是个成功的商业化产品套组，但它不是如想象般突破AGI进程的要塞，大模型可能已经不是这片战场最有用的武器了。

期待AGI的人要失望了，GPT-5只是个精心打磨的商业化产品

Published by

风君子

最新文章

标签

书签