DeepSeek小更新,多步推理表现提高43%

就在刚才,DeepSeek在官方微信群发出通知,线上模型版本已升级至 V3.1,上下文长度拓展至128k。

DeepSeek V3.1就是DeepSeek V3在2025年3月25号更新的0324版本,相较前代模型,其推理能力、上下文处理能力和多语言支持上都得到了提升。

根据测试,这个模型提升了处理复杂任务时的推理能力。其多步推理表现相较于前一版本提高了43%,能为数学计算、代码生成和科学分析等领域提供更准确的解决方案。

128K的上下文长度换算成汉字,大致可以处理10万到13万汉字,这个长度相当于一部完整的中长篇小说。比如老舍的《骆驼祥子》和余华的《活着》。

在多语言支持方面,V3.1版本能处理超过100种语言,尤其对亚洲语言和资源较少的语种进行了明显的能力优化。这一改进有助于该技术的全球化应用,并支持更好的跨文化内容生成。

最为关键的是,通过训练技术和模型架构的改进,该模型产生不实信息(即“幻觉”)的情况减少了38%,从而提高了输出信息的整体准确性与可靠性。

DeepSeek V3.1拥有5600亿参数,并在多样化的数据集上进行过微调。它具备处理文本、代码和图像的多模态能力,同时对推理过程进行了优化,以缩短响应时间。

不过我们最关心的DeepSeek R2仍然遥遥无期。2025年4月27日,DeepSeek官方宣布,R2原定为2025年5月发布,而且官方还表示甚至可以在更早的时间发布。但时至今日,DeepSeek并没有释出R2相关的信息,同时外媒报道DeepSeek R2在训练时由于芯片的问题导致发生严重错误,因此可能其发布还会再晚一些。(作者/苗正)

Published by

风君子

独自遨游何稽首 揭天掀地慰生平