用了半天 GPT-5，写作编程让我又爱又恨，200 刀的最强 Pro 版本到底值不值

GPT-5 上线后，果然一夜屠榜，在文本、编程、视觉等多方面的参数都夺得第一。

不过 AI 圈几乎每周都会诞生 SOTA ，比起纸面的参数，我们更关心 GPT-5 在实际中到底可以完成什么任务。

目前 GPT-5 已经陆续推送更新，APPSO 也第一时间升级体验，包括 200 美元/月的 GPT-5 Pro 也将在下文把体验分享给大家。

各方的反馈不一，幻觉率的降低基本得到一致好评，但奥特曼在发布会大赞的写作能力，反而被不少人认为比旧版更差。

至于发布会前就在疯传的编程能力，也是这次升级的重点，发布会拉来的 Cursor 也对 GPT 赞不绝口，称比之前的最好的编码模型还要更智能、更快、更便宜。

从 APPSO 的实测来看，对此只能同意一半。

需要注意的是，即便你的 ChatGPT 界面出现了 GPT-5 版本，也可能不是真正新版。我们在体验中发现，在 PC 端问GPT-5 是哪个模型，它会回答自己的 GPT-4o ，回答的效果也是旧版。

而我们在手机上升级后，看到生成质量有了显著提升，可见 OpenAI 的服务器目前还不稳定，这也可能是目前造成 GPT-5 口碑争议的原因之一。

下面，我们来具体看看 GPT-5 各方面的实际体验。

编程

编程是这次 GPT-5 发布会上花最多时间来介绍的一项能力，除了一开始的动态的 SVG 来解释伯努利效应，和法语学习 Web APP 展示。

OpenAI 邀请了 Cursor 联合创始人 Michael Truell 在现场演示，他使用 Cursor 里的 GPT-5 模型，解决了一个在 OpenAI Python SDK 中真实存在且已开放三周的 Bug。

Michael 在最后提到，从今天开始，GPT-5 将成为 Cursor 新用户的默认选择，并向所有 Cursor 用户发布，让他们在接下来的几天内试用，去感受到这个最智能的编码模型之一。

Michael Truell（右一）

OpenAI 还展示了在五分钟内，GPT-5 为一家初创公司的 CFO，从零开始构建了一个美观、设计优雅且带有交互功能的财务仪表盘；以及后训练研究员 Adi Ganesh 为他的表妹制作一个 3D 的城堡游戏，连 Greg 都忍不住上手玩了一会儿。

我们也立刻上手测试了多个编程项目，看看 GPT-5 是不是已经具备作为一个可靠的编程伙伴，来处理真实世界复杂工作的能力。

好吧，似乎还是不能对 GPT-5 的编程能力抱有过高的期待。

在经典的多边形与小球交互测试中，多边形动了，小球却纹丝不动，程序直接卡死，现场一度陷入尴尬，也暴露出其在物理逻辑建模上的短板。

还有这个 3D 太阳系模拟器，GPT-5 考虑的细节倒是挺齐全，但唯一的问题是，说好的太阳系却压根没加载出来，妥妥地诈骗。

正当我对 GPT-5 的编程能力「心灰意冷」之际，它又给了我一丝希望，比方说下面这个游戏生成速度飞快，角色一动起来还挺上头，交互效果也颇具可玩性。

但 ChatGPT 目前 vibe coding 的体验还是不够 vibe，质量参差不齐。就像这个测试，我们在 ChatGPT 里面告诉它，使用 HTML 语言生成一个能直接玩的俄罗斯方块游戏。

ChatGPT 只是生成了代码，然后丢给我们一个链接，链接的地址是一个在线的前端代码编辑分享平台，而不是直接在 ChatGPT 里面就能运行。

不过好在代码没有 bug，这个俄罗斯方块还是能玩起来。

写作

在今年高考期间，我们曾让 11 款主流模型化身 AI 鲁迅大战高考作文，那么如果 GPT-5 也是一名考生，表现又会如何？

讲真，比起 GPT-4o，我更喜欢 GPT-5 的回答，原因在于它的表达更有人味，在一众模型争相拽大词的写作风气中，GPT-5 的表达显得格外清爽又不失哲理，堪称一股清流。

GPT-5 Pro

「大语言模型在辅助人类写作过程中，是否会削弱用户的语义加工能力和长期记忆形成？」

用 ChatGPT 越用越傻？这一点我始终心存顾虑，于是我把这个问题扔给了 GPT-5 系列中最智能的版本 GPT-5 Pro。有一说一，我感觉它更像是深度研究的「孪生版本」。

上下滑动查看更多内容

同样都需要长时间的思考，回答条理清晰、观点深入，而且引用的资料来源也比较权威和多元化。也难怪奥特曼夸下海口称拥有 GPT-5 就像是拥有一支博士军团。

话说在刚刚结束的 Kaggle 国际象棋 AI 邀请赛中，OpenAI 的 o3 在决赛中轻松碾压 Grok 4，毫无悬念地拿下冠军。如果下一届 GPT-5 遇上 OpenAI o3，恐怕同样也是一场碾压局。

Published by