
中国AI芯片公司寒武纪完成了其基础软件平台Cambricon NeuWare在大模型训练推理和搜广推系统等核心场景的大规模技术验证,标志着该公司从硬件供应商向提供完整AI解决方案的平台企业转型取得关键进展。这套涵盖从底层驱动到上层开发工具的全栈软件系统,在多个关键性能指标上已达到业界领先水平,特别是在万卡级集群运维和极低延迟推理等技术难题上实现突破,为打破国际巨头在AI基础设施领域的垄断提供了可行路径。
AI算力竞争已经超越单纯的芯片性能比拼,转向软硬件协同优化、生态系统完整性和大规模部署稳定性的综合较量。寒武纪自成立以来坚持的训练推理融合与统一软件平台战略,正是基于对这一行业演进方向的深刻理解。该公司构建的从自研芯片架构到高性能软件平台的完整体系,实现了计算架构、编译优化与算法调度的深度融合,这种垂直整合能力使其能够在性能优化上获得超越通用方案的优势。
大模型技术正在重塑智能经济的底层逻辑,而搜索、广告与推荐系统这一被称为"搜广推"的场景成为大模型技术落地最具商业价值的前沿阵地。这类应用不仅需要处理海量用户请求,还要在毫秒级时间内完成复杂推理,对算力平台的吞吐量、延迟和稳定性都提出了极端要求。寒武纪在这一关键战场上的成功验证,证明其技术栈已经具备支撑大规模商业部署的成熟度。
底层技术的深度突破
寒武纪软件平台的竞争力建立在一系列底层技术创新之上。在驱动和运行时库层面,该公司实现了业务运行数月不停机的高稳定性,这是大规模商业部署的关键前提。更重要的是,通过细粒度并行技术解耦数据依赖和调度依赖,寒武纪将内核函数调度吞吐提升到每秒数十万个任务,这一指标达到业界领先水平,为高并发场景提供了坚实基础。

寒武纪基础软件平台Cambricon NeuWare,图中仅列举部分组件,相关缩写词注释请见文末
在极低延迟场景中,寒武纪引入的类IBGDA接口为通信库进行专家并行通信提供系统级保障,显著优化了混合专家模型在推理阶段的性能瓶颈。这类技术创新直接针对DeepSeek V3等前沿模型架构的特定需求,体现出该公司对学术前沿和产业需求的敏锐把握。
设备资源管理方面,寒武纪提供了三种粒度的切分机制:visible cluster支持运行时可编程的弹性拆分用于快速部署,sMLU基于时分复用技术实现容器化快速部署,而MIM物理划分技术则对标NVIDIA的MIG功能。这种多层次的资源虚拟化能力让用户能够根据不同场景灵活选择资源分配策略,提升整体算力利用率。
编译器技术是AI芯片软件栈的核心竞争力所在。寒武纪的BANG C语言在C/C++基础上针对MLU架构特点进行扩展,支持包括链接时优化、基于性能反馈优化、函数级片上空间复用等一系列高级编译技术。通过全局指令调度和符合MLU架构的指令布局优化,矩阵乘法等核心算子可达业界领先效率,这是支撑上层应用性能的基石。
值得关注的是寒武纪对开源社区标准的快速跟进。该公司已经支持Triton 3.4的全部特性包括FP8/FP4数据类型,并通过优化fast libentry显著降低Triton内核的主机端开销。在Triton编译器后端,寒武纪实现了多种优化包括软件流水优化、多目标指令调度、自动循环合并等,使部分热点算子性能已经与手写算子相当。这种对社区生态的拥抱降低了开发者的学习曲线,也加速了模型迁移过程。
大规模场景的验证与优化
在搜广推训练方向,寒武纪完成的大规模技术验证表明其解决方案可支撑多场景下的流式训练任务持续超数月稳定运行,精度与稳定性均满足严苛的商业要求。持续性能优化方面,团队完成了Layernorm、RMSNorm、L2Norm等多种算子的图匹配融合,并通过优化XLA支持获得更显著的加速比。这类针对特定算子模式的优化体现了深度应用场景理解对性能提升的价值。
大模型训练领域,寒武纪重点支持了DeepSeek V3/V3.1、Qwen2.5/Qwen3等混合专家模型,同时扩展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等多模态模型的训练支持。特别值得一提的是,基于原生FP8计算能力,寒武纪新增了Qwen和DeepSeek系列网络的FP8训练支持且精度符合预期。低精度训练是降低算力成本的重要技术方向,寒武纪在这一领域的进展增强了其成本竞争力。
推理方向的技术探索同样活跃。寒武纪研究并实践了W4A4以及MX-FP8/MX-FP4等新型数据类型,探索并支持稀疏注意力与线性注意力等多种高效注意力机制。对Qwen-Omni等多模态融合模型、Hunyuan3D等3D生成模型、CosyVoice等语音生成模型的支持,确保了技术栈的先进性与完备性。特别是针对DeepSeek V3.2-Exp模型实现发布即适配并同步开源适配代码,展现了快速响应能力。
持续优化的vLLM推理引擎完善了混合精度低比特量化推理机制,支持通算并行优化、PD分离部署、基于类IBGDA的极致低时延大规模专家并行等特性。通过支持Torch.compile特性优化主机侧瓶颈,实现了大模型应用的全方位加速。针对长序列与超低解码延时等场景的专项性能攻坚,使寒武纪在关键应用场景保持性能领先优势。
分布式通信是大规模训练的关键技术。寒武纪通信库针对大规模场景新增HDR/DBT等Allreduce通信算法,优先提升大规模条件下的通信带宽,并对Alltoall操作进行深度优化使其大规模扩展性达到与国际主流竞品相当的水平。同步加强的可维可测功能包括在线打点、模块化日志、高可靠服务模块等,帮助用户快速分析通信下发错误和异常卡死问题,提高集群通信可用性。
生态工具的成熟度跃升
大规模集群运维是AI基础设施建设中最具挑战性的环节之一。寒武纪开发的CntrainKit-Accu工具为万卡分布式训练场景提供端到端精度定位,支持精度指标在线监控,并针对精度问题进行自动化分级、信息采集、智能分析并提供对应解决方案。该工具全面支持NaN/Inf异常检测与快速定位,实现异常点级别的秒级溯源,大幅提升了大模型和搜广推场景的精度问题排查效率。
CntrainKit-Monitor实现对万卡级集群训练任务的实时通信与算子性能画像,具备毫秒级任务健康可视化能力和算子粒度的性能剖析,真正实现大规模集群的"问题自感知"。CNCE集群监管平台构建了覆盖计算、网络、存储的数据中心全景监控体系,实现对十万卡级算力集群的秒级状态采集与拓扑可视化,并具备自动发现、智能诊断、自动处理的闭环故障管理能力。
CNAnalyzeInsight故障分析工具作为智能日志分析与根因诊断引擎,支持对GB级日志的秒级检索与多维聚合分析,能够实现"异常发现、问题定位、原因归纳、修复建议生成"的故障诊断闭环。这些工具的成熟使集群运维从"人工巡检"迈向"智能自治",显著提升了大规模AI训练的可用性与稳定性。
在开源生态方面,寒武纪快速跟进PyTorch社区进展,支持从PyTorch 2.1到2.8的全部版本,适配了DDP、FSDP、FSDP2、Tensor Parallelism等一系列关键功能。Torch compile性能整体追平GPU compile加速比,高效支撑了产品在多个场景下的成功验证。提供的GPU Migration一键迁移工具帮助用户近乎零成本将模型从GPU迁移到MLU,配备的TorchDump精度调试工具和Torch Profiler性能调试工具助力用户高效定位问题。
通过近十年持续打磨迭代,寒武纪已构建出高效、易用、稳定、成熟且具备高可扩展性的软硬一体化产品体系。凭借领先芯片技术与完善基础软件平台,其产品已在大模型、搜广推、图片视频生成和各类多模态的训练推理场景中成功完成验证并赢得认可。在此过程中,产品不断接受大规模场景高强度检验,推动软件平台与芯片体系持续进化,形成了"应用促进优化、优化推动更强应用"的良性循环。

