颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍

快科技3月22日消息,NVIDIA研究人员推出一项全新技术KVTC(KV快取转换编码),能把大型语言模型(LLM)追踪对话历史的内存用量,最高缩减20倍,而且不用修改模型本身。 这一突破有望解决大型语 … 继续阅读 颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍

刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

智东西11月5日消息,刚刚,华为正式开源了UCM(Unified Cache Manager)推理记忆数据管理,这是一项针对AI推理加速的关键技术。 ▲GitCode项目页面 今年8月12日,华为正式 … 继续阅读 刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

智东西 作者 | 云鹏 编辑 | 李水青 智东西11月5日消息,刚刚,华为正式开源了UCM(Unified Cache Manager)推理记忆数据管理,这是一项针对AI推理加速的关键技术。 GitC … 继续阅读 刚刚,华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展