基准 – 第 11 页 – 冯金伟博客园

实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们

今天凌晨发布的 GPT-5.3-Codex 可以说是 OpenAI 对这段时间来，各种本地 Agent 爆火的一记重拳回击，当然主要是对 Anthropic 的反击。配合 OpenAI 前几天的发布 … 继续阅读实测 GPT-5.3-Codex，OpenAI 史上第一个高危模型，连 API 都还不敢给我们

就在刚刚，硅谷 AI 圈上演了一出「火星撞地球」。 OpenAI 和 Anthropic 仿佛商量好似的，同时甩出了自家的重磅更新：Claude Opus 4.6 和 GPT-5.3-Codex。如 … 继续阅读春节模型大战，硅谷率先打响：GPT 和 Claude 大更新撞车了

OpenAI周四发布GPT-5.3-Codex。该公司称，这是迄今为止能力最强的编程代理。值得注意的是，此次发布的时间点被精准安排在Anthropic推出其旗舰模型升级版Claude Opus 4.6 … 继续阅读 AI编程大战打响！OpenAI推出GPT-5.3-Codex，与Anthropic同步发布新模型

IT之家 2 月 5 日消息，紧跟最新研究进展对科学家而言至关重要，但每年发表的学术论文多达数百万篇，要做到这一点实属不易。人工智能系统在快速整合海量信息方面展现出巨大潜力，却仍存在编造内容、即“产生 … 继续阅读引文幻觉大幅下降的AI模型OpenScholar诞生，准确率与人类专家相近

今天的大语言模型能解奥数题、通过专业考试、写复杂代码，但它们在真实世界的应用中却常常“翻车”。问题出在哪里？在姚顺雨加入腾讯后发布的首篇论文里，他对于这个现象提出了一个观点： “当前AI与真正智能之 … 继续阅读姚顺雨腾讯第一篇论文，道破为什么AI死活听不懂人话

快科技2月4日消息，今天，SuperCLUE发布2025年年度中文大模型基准测评报告。 23个国内外模型参与角逐，覆盖数学推理、科学推理、代码生成等六大核心维度。从结果来看，海外闭源模型依旧占据头部 … 继续阅读全球中文大模型战力榜发布：前三被海外包揽国产有惊喜

凤凰网科技讯 2月3日，智谱宣布正式发布并开源GLM-OCR。据介绍，该模型仅0.9B参数规模，支持vLLM、SGLang和Ollama部署，在公式识别、表格识别、信息抽取的多项主流基准中均取得SOT … 继续阅读智谱开源GLM-OCR模型：仅0.9B参数，多项基准取得SOTA表现

2月3日，智谱宣布正式发布并开源GLM-OCR。据介绍，该模型仅0.9B参数规模，支持vLLM、SGLang和Ollama部署，在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现。

IT之家 2 月 3 日消息，人工智能已然对软件开发的方式产生颠覆性影响，如今编程中大量繁重琐碎的工作，都由一众智能体与子智能体完成。但开发者们仍在不断探索人机协作的全新交互界面与产品形态，即便最顶尖 … 继续阅读 OpenAI推出macOS版Codex应用：整合智能体化开发逻辑

每经AI快讯，2月2日，LME三个月期锡基准合约下跌超6%。