DeepSeek-V4迈出“去英伟达”关键一步丨科创要闻

原创 2小时前科创力

礼来以70亿美元收购Kelonia；全球首款耳聋基因疗法获批上市；AD脑巨噬细胞造血突变促炎致病；自变量发布首个世界统一模型；全球首个开源类脑VLA模型；谷歌发布第八代TPU拆分训练和推理；中科西光航天发布“定量高光谱智算星座”；用于双能量存储的 “蛛网–黏液” 结构木质素基电极材料。

南方周末科创力研究中心

责任编辑：黄金萍

科创要闻2026年第16期

2026年4月20日-4月26日

本期要闻轮值：丁莉

中国顶级大模型，开始主动为国产芯片“量体裁衣”。

4月24日，DeepSeek-V4预览版以巨量参数之姿亮相，其中，DeepSeek-v4-pro版本参数为1.6万亿，DeepSeek-v4-flash参数为2840亿。但比模型本身更引人注目的，是其硬件验证清单——华为昇腾与英伟达GPU并列其中。

长期以来，中国大模型的训练与推理几乎完全依赖英伟达的GPU和CUDA生态，国产芯片顶多扮演“备选项”的角色，与模型进行后期兼容（Day 0适配）。

但此次，行业惯例开始被打破，DeepSeek-V4未向英伟达和AMD提供早期访问权限，反而将之优先开放给华为昇腾芯片，从而获得数周时间进行底层适配，包括指令集、算子库及推理框架的优化，双方从设计阶段即开始了芯模紧密协同。

适配国产芯片，远非简单的“换个零件”。

英伟达构建的是一座从硬件、互联网络到软件操作系统（CUDA）的完整生态帝国。将模型切换到国产芯片，需要克服架构差异、软件栈成熟度、工具生态等多重障碍。

对此，DeepSeek-V4通过DSA（稀疏注意力）与混合注意力机制，对百万字长上下文进行压缩，让模型学会“抓重点”；同时，依托MoE架构，V4-Pro虽拥有1.6万亿总参数，但每次推理仅激活约490亿参数。这些都降低了推理对显存和算力的原始需求。

智源研究院的FlagOS系统进一步促进了底层算子的迁移。它通过“FlagGems全算子替代”等技术，将核心优化内置到模型框架中，实现了对华为昇腾、沐曦等超8款AI芯片的适配。

经深度优化后，DeepSeek-V4在华为昇腾芯片上的推理速度较初期版本提升了35倍，华为CANN框架与英伟达CUDA的代码兼容性已逼近95%。DeepSeek官方还明确表示，预计下半年昇腾950超节点批量上市并部署后，V4-Pro版本的价格将大幅下调。

图源：Artificial Analysis

这也意味着，供需共振的循环逐渐形成。头部模型的大规模采用，为国产芯片提供了真实的压力测试和需求拉动；国产算力供给又反过来为模型的迭代和降价创造了条件。

2025年，国产AI芯片在国内市场的份额已跃升至41%，其中华为昇腾占据了近半国产份额。

但DeepSeek-V4在部分能力上与国际最顶尖的闭源模型仍存在差距，国产算力在训练侧的大规模

立即登录

校对：赵立宇

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有，任何第三方未经授权，不得转载，否则即为侵权。

DeepSeek 国产芯片华为