马斯克xAI新模型上线，通过“50米外洗车店”测试，回答偏好高度贴合老马本人

衡宇发自麦蒿寺

量子位 | 公众号 QbitAI

马斯克xAI人员大动荡，并没有妨碍它家新模型发布。

风口浪尖上，Grok 4.2突然上线了——不过是公测Beta版。

对比如今动辄数万亿参数的模型方阵，Grok 4.2的参数仅有500B，略显克制。

或许也是因为如此，Grok 4.2的市场和用户反馈呈现出一种诡异的两极分化：连连盛赞者亦有之，骂骂咧咧者有之。

面对那部分排山倒海的质疑声，老马这位一向自信爆棚的硅谷狂人也有点坐不住。

他在上对近十条Grok 4.2的夸夸推文又是点赞又是转发。

每一条都藏不住对自家新baby的认同和支持。

不仅如此，他还亲自发推公关：

公测将持续到下个月。公测结束后，Grok 4.2将比Grok 4快得多，也聪明得多。

我们知道目前仍有许多bug需要修复和改进，每天都在debug中～

据了解，Grok 4.2的底层架构具备每周自我迭代的能力，以后每周将更新一次。

Grok 4.2公测版什么样？

关于Grok 4.2，其实早有预告。

回顾Grok 4.2的诞生历程，可谓是一部标准的“鸽王进化史”。

去年12月起，马斯克就开始在上频繁预热，多次提到“3–4 周内”或“下周上线 Grok 4.2”。

但发布时间多次推迟。相对应的，每次延后都会带来新的猜测。

这种反复跳票的行为在五天前达到了紧张的顶点——当时xAI的联合创始人接连离职，舆论情绪进一步放大，外界一度认为Grok 4.2要胎死腹中。

马斯克紧急召开发布会，并在会上放出重话：

在预测能力上，Grok 4.2成功击败所有AI，横扫各大榜单。

直到今天，Grok 4.2公测Beta版终于正式上线。

最近国内AI圈爆火的新版弱智吧风格benchmark“50米外有个洗车店，我该开车去还是走路去”，Grok 4.2无惊无险机智通过测试。

BTW，Grok 4.2公测Beta版不是默认版本，用户需要手动选择才能使用。

此次升级还首次引入快速学习能力，模型可以基于实时反馈持续优化。

马斯克在推文中强调，与以往版本那种静态的更新逻辑不同，Grok 4.2支持基于实时反馈的持续优化。

换句话说，Grok 4.2能像人类一样在实践中快速进化，每周更新成为自我进化的节奏的一部分。

不过，尽管马斯克喊出的口号震天响，但截至目前，xAI官方尚未释放出任何详尽的技术报告。

只有Leaderboard上面出现了对Grok 4.2的评测，具体情况如下：

由于整个模型底层训练细节、数据构成、具体benchmark表现仍然有限。

这让讨论更多停留在体验层面，而非技术细节层面。

毁誉参半，马斯克紧急公关

上线不到几个小时，Grok 4.2公测Beta版的口碑就出现了严重的撕裂。

在“不行派”的阵营里，很多深度用户和开发者表示，实际体验远不及预期，尤其是在处理高难度逻辑推理时，500B参数着实有点不够用。

有网友甚至调侃，马斯克所谓的“横扫榜单”可能存在特定的实验室优化环境。

Reddit上有网友猜测，一向高调的马斯克如此低调地发布Grok 4.2公测Beta版，主要原因还是因为模型能力无法与OpenAI和Anthropice的最新模型相媲美。

而且成本还贵出不老少……

此外有网友表示，虽然马斯克发推表示Grok 4.2是一个无偏见的模型，但现实情况很打脸——

根据测试，Grok 4.2的许多回答偏好都高度贴合马斯克本人。

当然，“夸夸派”也不少。

网友有夸奖Grok代码功能又快又好的：

有夸多模态能力的：

还有人测试表示，Grok 4.2通过了“Caitlyn Jenner”的AI测试，而ChatGPT和Gemini都失败了。

此前，这道题因为被Gemini回答为“不，哪怕为了阻止核末日也不应该误称性别”而被广泛议论，对话截图从而在、油管等平台广泛流传，演化成一个固定格式的吐槽梗。

总之是给马斯克骄傲坏了。

他一连发布数条推文对自家新孩子大夸特夸，并借机回应那些不好的评价：

我们Grok 4.2还是个宝宝，后面每周会更新，等着瞧吧！

据AI工程师Mark Krechman透露目前发布的Grok 4.2是500B参数的“小”版本，Grok 4.2的中、大型版本稍后将推出（马斯克亲自转发认证此条消息的真实性）。

One More Thing

Grok imagine为马年推出视频生成模版，目前iOS可用。

感兴趣的小伙伴们可以一试。

马斯克xAI新模型上线，通过“50米外洗车店”测试，回答偏好高度贴合老马本人

Published by

风君子

最新文章

标签

书签