
每逢节假日,DeepSeek 往往发布新品,也几乎成了 AI 圈的「固定节目」。
据 The Information 最新报道,DeepSeek 计划在未来几周内发布新一代 AI 模型 V4,预计发布时间在 2 月中旬(春节)前后,但具体时间仍可能调整。
报道称,根据 DeepSeek 内部基准测试结果,V4 在编程任务上的表现超越了目前市场上的主流模型,包括 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。
知情人士透露,该模型在处理和解析超长编程提示方面取得重大突破,这对开发复杂软件项目的程序员具有重要价值。
此外,V4 在训练过程中对数据模式的理解能力显著提升,且不会随着训练次数增加而出现性能衰退,解决了 AI 模型训练中的常见难题。
其中一位知情人士表示,用户将能明显感受到 V4 的回答更有条理,这说明新版本的推理能力更强,对于处理复杂任务也更可靠。
从近期动向来看,DeepSeek 的技术发布节奏也有所加快。

上周,DeepSeek 发布了一篇由 CEO 梁文峰参与撰写的研究论文,提出名为 mHC (流形约束超连接)的新架构。该研究致力于解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

此外,DeepSeek 本周也在 arXiv 低调把 R1 论文从 22 页扩充到 86 页(v2 版),一口气公开了训练全流程、超参数、失败尝试和完整评测。
而针对上述 V4 的报道,截至发稿前,DeepSeek 未对此事作出回应。

