解码器 – 冯金伟博客园

苹果发布LiTo大模型：单图生成3D对象，AI高度还原多视角光影

IT之家 3 月 17 日消息，科技媒体 9to5Mac 昨日（3 月 16 日）发布博文，报道称苹果 AI 研究团队发布研究报告，攻克了 3D 重建领域的一项核心难题：仅通过单张平面图像，就能重建出 … 继续阅读苹果发布LiTo大模型：单图生成3D对象，AI高度还原多视角光影

凤凰网科技讯 2月3日，智谱宣布正式发布并开源GLM-OCR。据介绍，该模型仅0.9B参数规模，支持vLLM、SGLang和Ollama部署，在公式识别、表格识别、信息抽取的多项主流基准中均取得SOT … 继续阅读智谱开源GLM-OCR模型：仅0.9B参数，多项基准取得SOTA表现

编辑：定慧好困【新智元导读】DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模 … 继续阅读 DeepSeek又拿第一！首创“因果流”视觉推理，超越Gemini

▲头图由AI生成这一框架可用于集成额外文本、语音和视觉等多种模态。作者 | 陈骏达编辑 | 云鹏智东西1月27日报道，刚刚，DeepSeek开源了其面向OCR场景的专用模型DeepSeek-O … 继续阅读 DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

IT之家 1 月 16 日消息，智谱 1 月 14 日宣布联合华为开源新一代图像生成模型 GLM-Image，模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从 … 继续阅读首次：智谱华为合作GLM-Image模型登顶Hugging Face Trending

快科技1月16日消息，今日，智谱宣布，其联合华为开源的新一代图像生成模型GLM-Image，在开源不到24小时内，登上全球知名AI开源社区Hugging Face（抱抱脸）榜单全球第一。智谱表示，这 … 继续阅读首次国产芯片全程训练！智谱联合华为开源新模型登顶全球第一

感谢AI！原生1个G的视频，现在只需要传200K数据就能看了—— 视频数据的压缩率干到了0.02%，但依旧能保持画面的高清、连贯和画面细节。或许你会问，这又有什么用呢？想象一下，你身处于太平洋的 … 继续阅读不得了，这个新技术把视频压缩到了0.02%

一水鹭羽发自凹非寺量子位 | 公众号 QbitAI 好一个一吐为快！年底就要正式离开Meta的LeCun，这下真是啥都不藏了。不看好大语言模型能通往AGI，他就言辞犀利地指出：通往超级智 … 继续阅读 LeCun离职前的吐槽太猛了

IT之家 12 月 18 日消息，科技媒体 Windows Report 今天（12 月 18 日）发布博文，报道称谷歌 Chrome 浏览器正秘密测试一款名为 Symphonia 的音频解码器，该组 … 继续阅读挑战FFmpeg：谷歌Chrome浏览器多媒体引擎加速Rust化改造

12月9日，智元机器人宣布开源VideoDataset。据介绍，VideoDataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库，其基于NVIDIA Video Codec … 继续阅读智元宣布开源高性能视频数据加载库VideoDataset