打破算力与互联瓶颈,昇腾如何为中国AI产业提速?

摘要:全面开源开放,昇腾为全球AI注入“猛药”

凤凰网科技 出品

作者|冰美式

编辑|刘毓坤

在全球AI算力竞争进入深水区、技术代际更替加速演进的当下,华为正在调整叙事重心:从产品性能的“点式突破”,转向生态建设的“系统性投入”。

9月20日,在华为全联接大会2025(HC2025)上,华为常务董事汪涛指出,繁荣的生态,不仅是产业前行的核心引擎,更是支撑华为长期增长的战略基石。会上,“开放、合作、共赢”也成为他反复强调的关键词。

同时,在这场被视作昇腾“亮剑”的大会上,昇腾计算业务总裁张迪煊宣布成立CANN技术指导委员会,并承诺每年投入1500P算力和3万开发板,支持全球开发者共建共创。不同于以往单点性能的比拼,这一次华为选择押注全栈开源与硬件开放,把工具链、编译器、框架全面交到开发者手中,也将模组、标卡、超节点开放出来,意在夯实AI产业的算力底座。

对华为而言,这不仅是技术路线的延续,更是从“补齐短板”到“主动建新路”的转变:不仅要在全球AI格局中找到属于中国的竞争力,也要与全球开发者一起,去定义新标准、开创新范式。

开源先行,共建社区新局面

过去,昇腾的核心软件栈CANN更多由华为内部主导研发和维护,对外开放有限,开发者要想深度参与并不容易。而这一次,华为明确提出计划在年底前完成CANN全栈的开源。这意味着,从编译器算子库、从运行时到底层接口,开发者都可以自由调用、调优甚至改造。

这种变化不只是一个口号,而是架构层面的根本性调整。通过分层解耦,CANN将支持开发者按需调用模型、算子、内核甚至底层资源。对于希望深入优化性能的“发烧友”,华为还开放了底层Runtime能力,让他们能够细粒度调度硬件资源,挖掘出潜在的极致算力。这一转变,直接响应了开发者长期以来对灵活性、透明度和兼容性的诉求。

与此同时,CANN也在逐步构建一套完备的编程体系。开发者既可以使用Ascend C语言与CATLASS模板库实现自定义开发,也可以通过对接Triton、TileLang等Python前端框架快速验证新想法。华为还开放了共享存储能力,使片上内存可以实现资源池化,开发者通过SHMEM接口开发算子,通信延迟显著降低,代码量减少60%。下一代产品还将引入CCU集合通信加速单元,把部分归约计算卸载到专用硬件上,进一步释放算力潜能。

在基础能力之外,昇腾也贡献了新的计算标准与工具。华为创新了HiFloat8低精度数据格式,并捐献给全球计算联盟(GCC)推动标准化,在保持接近FP16精度的同时,显著降低了显存占用,为大模型训练和推理提供更高性价比的方案。工具链方面,华为开源了自动调优工具msProfiler,能够根据输入参数自动生成最优Tiling策略,算子开发效率提升20倍以上。在推理优化中,Attention与FFN分离方案通过灵衢互联实现大带宽低时延,实测性能提升超过50%,相关代码已开源到vLLM社区并持续迭代。

全面开源带来的价值,目前已经在业界初步得到验证。上海人工智能实验室国产编译首席研究员袁晟,基于CANN开源的编译器组件AscendNPU IR,开发了Triton扩展深度学习编译器DLCompiler。该编译器通过跨架构DSL扩展与智能自动优化技术,大幅提升了开发效率与运行性能。在MLIR编译阶段,DLCompiler与AscendNPU IR深度对接,充分利用了其底层表达能力,从而让Triton算子在昇腾硬件上实现高效性能优化。

透过现象看本质,开源不仅是“代码共享”,更是技术创新的加速器。而对于华为而言,全面开源或许只是第一步,更重要的是如何融入全球开发者生态。张迪煊提到,昇腾将优先支持Triton、PyTorch等主流开源框架,并把最新功能第一时间开放到社区。

多个国际社区中,昇腾的新特性和组件已与主流框架同步上线,让开发者能够在第一时间获取并测试最新技术。据了解,当前昇腾主导或深度参与的开源项目超过60个,累计贡献37万行代码,活跃开发者数量超过6500人。

另外,在大会期间CANN技术指导委员会正式成立,这标志着昇腾软件栈的管理将从“公司主导的项目制”走向“社区化共治”。这一模式下,开发者不再只是工具的使用者,而是通过议题讨论、代码贡献、规则制定,成为生态演进的共同塑造者。

大会上,华为承诺每年投入1500P算力和3万片开发板,面向全球开发者开放使用。通过算力和硬件的长期供给,开发者不仅可以快速验证和迭代自己的想法,还能在低成本环境中探索创新路径。这种大规模资源投入,实际上为昇腾生态构建了一个持续的“飞轮效应”:越多开发者加入,生态越丰富;生态越丰富,昇腾的技术壁垒和市场吸引力就越强。

硬件开放,打造全场景坚实算力底座

如果说全面开源为昇腾生态铺设了“软件高速公路”,那么硬件开放则是在夯实算力的“地基”。张迪煊在演讲中强调,昇腾不仅要在软件层面做到开放透明,还要在硬件环节彻底打破壁垒,把模组、标卡、互联协议交到伙伴手中,让更多厂商能够在此基础上打造差异化产品。

其中,灵衢协议的价值尤其关键。在大模型时代,超节点需要多个算力单元的高速互联。传统方案往往受限于带宽和时延,导致算力利用率不足。基于灵衢互联协议,华为开创了超节点架构,其具备资源池化、规模扩展、长稳可靠的关键特性,可实现计算、存储单元的大带宽和低时延互联,通过统一协议和内存编址,使有效算力能够随集群规模线性扩展,并大幅提升集群可靠性。

在华为给全球AI注入的“猛药”中,硬件开放也并不是抽象的概念,而是在产品迭代中有了更具象的体现。今年,昇腾已经推出了大模型推理标卡,支持伙伴开发面向垂直场景的一体机。并且公布了明年的产品节奏:Atlas 350标卡、Atlas 550模组和刀片服务器即将上市。

据介绍,Atlas 350标卡,采用最新的昇腾950PR芯片,向量算力提升2倍,支持更细粒度的Cacheline访问,在推荐推理场景可实现2.5倍性能提升,且单卡即可运行。Atlas 350支持4个灵衢端口互联,实现算力、内存等资源池化,可以让更大参数模型、更低时延应用可以在标卡上实现。

实际上,硬件能力的释放也正在通过行业方案,与产业界共享技术红利。目前,华为已经联合20多家ISV伙伴,基于昇腾平台打造行业解决方案,比如在金融场景中,基于昇腾平台的信贷报告系统,能够在保障数据安全的前提下显著提升处理效率;在医疗场景中,电子病历与教学助手的应用已经进入试点,为医生提供更快速的信息检索与辅助决策;在电力行业,算力平台则支撑了电网调度优化,帮助提升运行稳定性。

未来,随着更多伙伴的加入,这种模式或许将加速AI应用在千行百业的渗透。大会现场,张迪煊也呼吁道,“诚挚欢迎更多ISV加入,共同挖掘新场景、新机会,让AI走深向实,智能无所不及。”

一手硬件开放,一手软件开源,前者提供物理层面的支撑,后者塑造了创新的通道。两者叠加,无疑让昇腾在体系化能力上,建立起新的优势。

全球化与人才培养并进,驱动生态的可持续力量

生态的繁荣不仅依赖于开源和硬件开放,同样需要长期的人才培养与国际化布局作为支撑。自2020年起,华为与教育部合作推动“智能基座”计划,把昇腾课程引入高校课堂,逐步形成覆盖本科、硕博不同阶段的培养体系。

这几年,华为不仅推动了普适性的教学内容,还与头部高校成立鲲鹏昇腾卓越中心和孵化中心,围绕编译、算子优化、推理加速等关键方向开展科研课题。大力地投入,也让华为看到了阶段性的成果。比如,北京大学杨智团队自研的TileLang编程语言,通过类Python的编程方式大幅降低了AI编程门槛,与昇腾CANN完成对接后,能用不到原始代码六分之一的篇幅实现FlashAttention算子,性能依旧保持在主流水准。

又如,基于昇思MindSpore框架,巴黎文理大学高等矿业学院正在探索降维压缩技术,在减少10倍KV-Cache内存消耗的同时,将精度损失控制在0.1%以内。这些案例表明,科研与人才培养正在与产业生态形成正向循环:新方法推动性能优化,而生态平台则为研究成果的落地提供舞台。

在全球化方面,华为正尝试让昇腾生态逐步进入海外市场。不同于以往以产品出口为主的路径,这一次,华为更多通过开放代码、工具链与标准,把昇腾嵌入国际开源社区,从而实现“生态先行”。昇腾也在多个国际社区同步发布新特性,让海外开发者可以第一时间接触到昇腾的能力。

同时,华为也在与海外高校和科研机构建立合作,从联合实验室到人才培养计划,逐步形成更稳固的国际化网络。对于产业伙伴而言,这种开放姿态降低了试水成本,让他们能够在已有生态框架下尝试使用昇腾,而不必担心兼容性问题。

过去几年,华为在压力与竞争中一次次选择“另辟蹊径”:从操作系统到自研光器件,再到今天的昇腾生态,都体现出“补齐短板”之外的另一种路径——主动建新路。

这条路不是简单的产品堆叠,而是由一系列系统性举措构成:全面开源,让工具链、编译器与算子库真正走向社区;硬件开放,把模组、标卡和互联协议交给伙伴,构建全场景算力底座;人才培养与全球化布局,为生态提供源源不断的创新活力与应用空间。

正是在这些行动的支撑下,昇腾不再只是华为的一个产品线,而正在成为开发者、产业伙伴乃至科研机构共同参与的开放平台。它的意义,或许不只是中国AI产业在全球竞争中的一次突围,更可能是未来生态竞争格局中的一次提前布局。正如张迪煊在演讲最后所说,别再只做“使用者”和“适配者”,要成为“定义者” 和“开创者”。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平