OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。 大模型会有幻觉,这几乎已经成为一个常识,让 … 继续阅读 OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首

OpenAI研究人员宣称已破解模型“幻觉”:重新设计评估指标即可

IT之家 9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。 IT之家注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出, … 继续阅读 OpenAI研究人员宣称已破解模型“幻觉”:重新设计评估指标即可

满屏满地铁的AI广告,差点把我吓出心脏病

起猛了,早高峰挤地铁被黑暗中一闪而过的AI广告灯箱吓醒了,看着数字代言人皮笑肉不笑地伸出六根手指冲打工牛马的奋斗精神点赞,差点以为伪人入侵地球了。 吃多了老板画的饼,中午只想吃点热乎的现炒盖码饭,对着 … 继续阅读 满屏满地铁的AI广告,差点把我吓出心脏病

刚刚,又一个万亿AI独角兽诞生,直逼字节OpenAI

编译 | 程茜 编辑 | 云鹏 智东西9月3日报道,今天凌晨,大模型独角兽Anthropic宣布完成130亿美元(折合人民币约928亿元)F轮融资,投后估值达到1830亿美元(折合人民币约1.3万亿元 … 继续阅读 刚刚,又一个万亿AI独角兽诞生,直逼字节OpenAI

Claude杀进谷歌浏览器,Agent能点、能填、能跳转,让页面自己“动”起来

编译 | 江宇 编辑 | 漠影 智东西8月27日报道,Anthropic今日推出一款浏览器端AI Agent工具“Claude for Chrome”,允许用户直接在Chrome中调用Claude完成 … 继续阅读 Claude杀进谷歌浏览器,Agent能点、能填、能跳转,让页面自己“动”起来

DeepSeek V3到V3.1,如何走向算力自由

从魔改PTX到使用 UE8M0 FP8 Scale 的参数精度,DeepSeek先榨取英伟达GPU算力,再适配国产芯片,可能会在软硬件协同方面带来新的突破,进一步提高训练效率,最多可以减少 75% 的 … 继续阅读 DeepSeek V3到V3.1,如何走向算力自由

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次

编辑:定慧 好困 【新智元导读】DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率 … 继续阅读 比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次

深度揭秘OpenAI如何让GPT-5“技术性”超越Claude:悄悄跳过最难的23道题

几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。 但发布会上搞了一个大乌龙,52.8>69.1=30.8? 于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世 … 继续阅读 深度揭秘OpenAI如何让GPT-5“技术性”超越Claude:悄悄跳过最难的23道题

GPT-5王者降临,免费博士级AI全面屠榜!百万程序员不眠之夜,7亿人沸腾

新智元报道 编辑:编辑部 【新智元导读】GPT-5,震撼登场!距离22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了两年半之久。这次的深夜直播,国内有数万吃瓜群众在线观看。至少 … 继续阅读 GPT-5王者降临,免费博士级AI全面屠榜!百万程序员不眠之夜,7亿人沸腾