凤凰网科技讯 2月3日,智谱宣布正式发布并开源GLM-OCR。据介绍,该模型仅0.9B参数规模,支持vLLM、SGLang和Ollama部署,在公式识别、表格识别、信息抽取的多项主流基准中均取得SOT … 继续阅读 智谱开源GLM-OCR模型:仅0.9B参数,多项基准取得SOTA表现
标签: 解码器
DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini
编辑:定慧 好困 【新智元导读】DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模 … 继续阅读 DeepSeek又拿第一!首创“因果流”视觉推理,超越Gemini
DeepSeek最新王炸模型:VLM架构重磅突破,AI像人一样读图
▲头图由AI生成 这一框架可用于集成额外文本、语音和视觉等多种模态。 作者 | 陈骏达 编辑 | 云鹏 智东西1月27日报道,刚刚,DeepSeek开源了其面向OCR场景的专用模型DeepSeek-O … 继续阅读 DeepSeek最新王炸模型:VLM架构重磅突破,AI像人一样读图
首次:智谱华为合作GLM-Image模型登顶Hugging Face Trending
IT之家 1 月 16 日消息,智谱 1 月 14 日宣布联合华为开源新一代图像生成模型 GLM-Image,模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从 … 继续阅读 首次:智谱华为合作GLM-Image模型登顶Hugging Face Trending
首次国产芯片全程训练!智谱联合华为开源新模型登顶全球第一
快科技1月16日消息,今日,智谱宣布,其联合华为开源的新一代图像生成模型GLM-Image,在开源不到24小时内,登上全球知名AI开源社区Hugging Face(抱抱脸)榜单全球第一。 智谱表示,这 … 继续阅读 首次国产芯片全程训练!智谱联合华为开源新模型登顶全球第一
不得了,这个新技术把视频压缩到了0.02%
感谢AI! 原生1个G的视频,现在只需要传200K数据就能看了—— 视频数据的压缩率干到了0.02%,但依旧能保持画面的高清、连贯和画面细节。 或许你会问,这又有什么用呢? 想象一下,你身处于太平洋的 … 继续阅读 不得了,这个新技术把视频压缩到了0.02%
LeCun离职前的吐槽太猛了
一水 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 好一个一吐为快! 年底就要正式离开Meta的LeCun,这下真是啥都不藏了。 不看好大语言模型能通往AGI,他就言辞犀利地指出: 通往超级智 … 继续阅读 LeCun离职前的吐槽太猛了
挑战FFmpeg:谷歌Chrome浏览器多媒体引擎加速Rust化改造
IT之家 12 月 18 日消息,科技媒体 Windows Report 今天(12 月 18 日)发布博文,报道称谷歌 Chrome 浏览器正秘密测试一款名为 Symphonia 的音频解码器,该组 … 继续阅读 挑战FFmpeg:谷歌Chrome浏览器多媒体引擎加速Rust化改造
智元宣布开源高性能视频数据加载库VideoDataset
12月9日,智元机器人宣布开源VideoDataset。据介绍,VideoDataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库,其基于NVIDIA Video Codec … 继续阅读 智元宣布开源高性能视频数据加载库VideoDataset
英伟达发布TiDAR:单步生成多个Token,AI吞吐量提升近600%
IT之家 12 月 2 日消息,科技媒体 Tom’s Hardware 今天(12 月 2 日)发布博文,报道称英伟达在最新论文中,详述名为 TiDAR 的新型 AI 解码方法,巧妙融合了 … 继续阅读 英伟达发布TiDAR:单步生成多个Token,AI吞吐量提升近600%

