← 返回文章一览
一一得一 · 技术笔记

算力主权:国产AI芯片的 2025 分水岭算力主権:国産AIチップの2025年分岐点

2026-05-14
AI芯片半导体华为寒武纪海光国产替代产业分析

⚔️ 一、开篇:一场静悄悄的权力交接

2022 年,中国 AI 芯片市场还是英伟达的”后花园” 🏡。C 端玩家拿到的是阉割版 A800/H800,B 端大厂排队等卡,交付周期动辄半年起步。当年的国产芯片出货量,甚至填不满英伟达一个季度的零头。

三年后的 2025 年,一切都变了 🔄。

根据 IDC 等机构交叉数据,2025 年中国 AI 芯片总出货约 401.6 万张 📊。其中国产本土厂商合计出货约 165 万张,市占率从三年前的不足 15% 跃升至 41% 🚀。英伟达则从一度高达 95% 的绝对统治滑落至 55% ⬇️——三年丢掉整整 40 个百分点。

这组数字的背后,不是某个单一因素的爆发,而是 出口管制 + 政策引导 + 技术突破 + 资本涌入 🔥 四股力量共振的结果。更重要的是,2025 年不是终点,而是一个历史拐点的开始 🎯。


🗺️ 二、一超多强:2025 年的国产芯片版图

如果给 2025 年的国产 AI 芯片画一张地图,它会是典型的「一超多强」格局。

🏆 华为昇腾(Huawei Ascend)——绝对龙头

出货约 81.2 万张 🎖️,占国产芯片总出货量近 50%,全市场排名第二(仅次于英伟达)。华为走的是一条最难的路线——完全自主的 NPU 架构,不兼容 CUDA,从芯片(昇腾)到框架(MindSpore)到计算架构(CANN)到开发者工具,全栈自建。

🐎 阿里平头哥(T-Head)——云芯协同的黑马

出货约 26.5 万张,位列国产第二、全市场第三。平头哥走的路线与华为不同——依托阿里云生态,从云到芯做垂直整合。其真武 810E 已接近 H20 性能,2026 年出货预期 40-50 万张。

🧠 寒武纪(Cambricon)——专业选手的价值验证

出货约 11.6 万张,与昆仑芯并列国产第三。但更值得关注的是财务数据:2025 年全年营收 64.97 亿元,同比增长 453% 📈;归母净利润 20.59 亿元,上市以来首次全年盈利 💰。2026 年 Q1 营收 28.85 亿元,同比再增 160%。

寒武纪的技术路线是 DSA(领域专用架构),核心王牌是硬件级稀疏化计算 🎯——在硬件层面自动跳过神经网络中的零值运算,这对大模型推理加速至关重要。其 MLU590 已在字节跳动的搜广推业务中大规模部署,思元 690 号称能达到 H100 80% 以上的性能。

🛡️ 海光信息(Hygon)——兼容派的差异化生存

出货约 8.25 万张,占国产约 5%。营收 143.77 亿元(含 CPU 业务),净利润 25.45 亿元。海光的选择最务实:走 GPGPU 路线,极致兼容 CUDA/x86。其 DTK 软件栈可将 CUDA 代码高效转译,开发者几乎无需重构就能迁移。


🎲 三、三条技术路线的对决

国产 AI 芯片的竞争,本质上不是「谁算力更强」,而是 「如何绕过 CUDA 这座大山」🏔️ 的不同回答。

维度🏛️ 华为昇腾(NPU 自建)🧠 寒武纪(DSA 专用架构)🛡️ 海光信息(GPGPU 兼容)
架构理念全栈自主,封闭但高效领域特化,能效为王 🌿极致兼容,降低门槛
CUDA 策略编译器转译 + 自建 CANN编译器转译 + 自建 NeuwareDTK 直接兼容,追求无损迁移
推理表现950PR 达 H20 的 2.87 倍 🔥MLU590 在搜广推已验证通用场景稳健,无特别优势
训练能力910C 达 H100 约 80%,960 系列 2027 冲刺 ⏳690 系列训练能力待验证DCU 主要面向推理+HPC
生态开放度🔒 封闭(政企为主)🔓 半开放(已开源部分代码)🌐 开放(兼容主流生态)
最大护城河全栈能力 + 超节点 + 政企渠道DeepSeek 深度适配 + DSA 能效x86/ROCm 存量市场
最大风险出圈商业化难度 ⚡客户集中 + 产能瓶颈兼容天花板明显

⚡ 核心分水岭:推理 vs 训练

2025-2026 年最重要的变化是:推理算力正在取代训练算力,成为市场的主战场。 🎯

2026 年 3 月,国内日均 Token 调用量已突破 140 万亿 🔢。模型从训练走向部署,推理芯片的需求呈指数级增长 📈。而这恰恰是国产芯片的优势区间——推理对单卡绝对性能的要求低于训练,但对能效比、时延、TCO 的要求更高。

华为昇腾 950PR 正是在这个节点亮出了最锋利的刀 🔪:FP4 精度下单卡推理性能达英伟达 H20 的 2.87 倍 ⚔️,显存占用减少 75%,成本降低 50 倍以上。DeepSeek V4 在昇腾上的推理效率较 CUDA 版本提升 35 倍 💥——这种「模型 × 芯片」的协同优化,正在形成新的竞争壁垒。

🏗️ 超节点:系统级降维打击

另一个重要趋势是 「超节点」架构的兴起 🏙️。当单芯片性能受制于制程天花板,华为的选择是:用系统架构来补

384 颗昇腾芯片通过 HCCS(华为自研高速互联协议)组合成超节点,配合自研交换网络,整体算力反超英伟达 GB200 集群 1.7 倍 💪。这不仅仅是「以量补质」,而是重新定义了算力竞争的维度——从单芯片跑分,变成了互联密度、交换效率、软件协同的系统工程竞争 🔗。


🔗 四、生态之战:CUDA 的幽灵与国产替代的阿克琉斯之踵

如果说硬件差距是「看得见的追赶」👁️,那么软件生态的差距是「看不见的深渊」🕳️。

CUDA 从 2006 年开始建设,覆盖全球 400 万+ 开发者 👨‍💻。中国绝大多数 AI 开发者都是英伟达生态的「原住民」——他们的代码、习惯、调试工具、最佳实践,全部基于 CUDA 构建。迁移到国产平台意味着大量代码需要重写,这个时间成本往往比硬件价差更难接受 😫。

🎪 三个阵营,三种生态策略

1️⃣ 华为 CANN + MindSpore(封闭自建) 华为的选择是「最重」的路线 🏋️:不接受兼容,不依赖 CUDA,从零开始构建自己的软件栈。CANN(异构计算架构)提供底层算子库和编译器,MindSpore 作为深度学习框架,配合昇腾芯片做深度协同优化。

💡 转折点:2025 年华为将 MindSpore 全面开源,DeepSeek V4 成为首个从 CUDA 完整迁移至 CANN 的主流大模型。推理效率反超 CUDA 版本 35 倍 🚀——这个结果让「自建生态是否可行」的质疑,第一次有了实证反证。

2️⃣ 寒武纪 Neuware(专业适配) 寒武纪不走全栈封闭路线,而是聚焦于 Neuware 平台,针对特定场景做深度优化 🎯。其战略高点在于与 DeepSeek 等国产大模型形成绑定——如果 DeepSeek V5 基于寒武纪 690 进行训练,下游推理将无需额外适配。这种**「训练锁定推理」**的逻辑,是寒武纪对抗华为全栈整合的最强武器 🔫。

3️⃣ 海光 DTK(生态寄生) 海光的选择最务实 🤝:通过 DTK 软件栈实现对 ROCm 及 CUDA 生态的高效转化。「如果你不能打败 CUDA,那就加入它。」开发者几乎无需重构代码,即可将业务迁移至海光平台。

🏁 Day 0 适配:一个里程碑

🎉 2026 年 4 月 24 日,DeepSeek V4 发布当天——华为昇腾、寒武纪、海光、摩尔线程、沐曦同步完成全栈适配 👏。这在中国 AI 芯片历史上是第一次

此前,只有英伟达能做到发布即适配,其他 GPU 通常滞后数月。这一事件标志着国产生态集体跨越了「可用」到「好用」的门槛——至少对于推理场景而言 🚪。


🔧 五、制造破局:没有 EUV 光刻机的突围策略

如果说芯片设计是「头脑」🧠,芯片制造就是「手脚」🦶。在美国出口管制下,中国无法获得 ASML 的 EUV 光刻机,最先进的制程被卡在 7nm(中芯国际 N+2)🔒。

但国产芯片正在用三张牌来做突破 🃏:

🃏 第一张:先进封装(Chiplet 技术)

Chiplet 的核心思想是「用成熟制程堆出高性能」🧱——将大芯片拆解为多个小芯粒(chiplet),用先进封装技术(2.5D/3D)将它们高速互联,等效于一个先进制程大芯片。

2025-2026 年,国产 2.5D 封装(CoWoS-S)已实现量产 ✅,长电科技、通富微电、盛合晶微等企业突破了关键技术。昇腾 910B/910C/950 均采用 CoWoS-S 过渡路线,960 系列将升级为 CoWoS-L。寒武纪 690 是国内首个采用 CoWoS-L 的产品 🥇。

🃏 第二张:自研 HBM

AI 芯片的另一个瓶颈是 HBM(高带宽内存)💾。华为已推出自研 HBM「HiBL 1.0」,昇腾 950PR 搭载 112GB 自研 HBM,带宽 1.4TB/s ⚡。与此同时,国内存储厂商在 2026 年已实现 HBM2e 量产,HBM3 进入小批量试产——虽然距离 SK 海力士的最新 HBM3e 仍有代差,但已能满足当前国产芯片的基本需求。

🃏 第三张:产能扩张

中芯国际正快速扩产先进制程产能 🏭:2026 年 7nm 产能预计翻倍至 6 万片/月,5nm 工艺进入试产阶段,目标 2026 年内实现量产。华为也在自建晶圆厂(SiCarrier),与中芯国际合作,有望突破产能瓶颈 💪。


🔮 六、未来走势:2026-2030 的五条主线

1️⃣ 国产化率从加速到见顶

国产 AI 芯片市占率预计 2026 年突破 50%,2027 年冲击 70-80% 🎯。但越往后,替代的边际难度越大——最容易被替代的推理场景先被吃掉,剩下的训练场景和存量 CUDA 绑定场景需要更长时间的生态建设。

📊 摩根士丹利预测 2030 年中国 AI 芯片可寻址市场达 670 亿美元,2024-2030 年复合增长率约 23%。

2️⃣ 推理为王,训练破局

推理算力需求正在经历指数级增长 📈(日均 Token 调用量从万亿级跃升至百万亿级)。国产芯片已在此区间建立了明确的 性能 + 成本优势 💰。

训练端,昇腾 960 系列(2027 年批量出货)有望规模切入大模型训练场景。华为路线图显示:从 910C(H100 约 80% 性能)→ 950(推理专用)→ 960(训练突破)→ 970(远期目标),训练能力的追赶正在加速 ⏩。

3️⃣ 大模型 × 芯片深度耦合

DeepSeek V4 开启了一个新模式——模型发布与芯片适配同步完成 🤝。随着 DeepSeek、Qwen、GLM 等国产大模型持续迭代,「国产模型 + 国产芯片」的闭环正在从「可选」走向「默认」 ✅。

未来 2-3 年,我们会看到更多「模型选型看芯片,芯片迭代看模型」的协同进化 🔄。这不仅是技术层面的绑定,更是生态层面的锁定效应 🧲。

4️⃣ 洗牌期到来

芯片是典型的赢者通吃行业 🏆。当推理市场逐步成熟、增长率从 50-100% 回落到稳态时,行业必然洗牌。二线厂商(沐曦、天数智芯、壁仞等)如果不能快速找到差异化定位或规模化订单,将面临生存压力 😰。

💡 一个关键观察是:2025-2026 年的 IPO 潮(摩尔线程、壁仞、燧原等)为这些企业注入了资本弹药 🧨,但资本市场对「营收 vs 估值」的压力也将更早到来。

5️⃣ 全球视野下的算力博弈

🌍 国产芯片的崛起不仅改变了中国市场,也在重塑全球算力格局。英伟达正在失去一个占其总收入约 20% 的市场。与此同时,中国正在通过「数据中心出海」和「算力外交」,在东南亚、中东、非洲等地区建设基于国产芯片的智算中心,将算力竞争从「技术封锁 vs 技术突围」的二元博弈,推向更复杂的多极格局 ♟️。


🏁 七、结语:拐点之后

2025 年是中国 AI 芯片行业的分水岭 ⛰️。不是因为它完美解决了所有问题——远没有——而是因为它第一次证明了一条路是可行的:在先进制程被卡、软件生态被封锁、市场被巨头垄断的条件下,用系统创新和工程能力完成「从替代到自强」的第一步 🚶➡️🏃。

接下来的三年将是更艰难的「深水区」🌊:

答案还不确定,但方向已经清晰:算力主权不再是一个口号,而是一个正在发生的现实。 🎯


📅 2026 年 5 月 | 🤖 由 Hermes Agent 辅助编写

相关文章

© 2026 9x9