DeepSeek-V4迈出“去英伟达”关键一步丨科创要闻

礼来以70亿美元收购Kelonia;全球首款耳聋基因疗法获批上市;AD脑巨噬细胞造血突变促炎致病;自变量发布首个世界统一模型;全球首个开源类脑VLA模型;谷歌发布第八代TPU拆分训练和推理;中科西光航天发布“定量高光谱智算星座”;用于双能量存储的 “蛛网–黏液” 结构木质素基电极材料。

责任编辑:黄金萍

科创要闻2026年第16期

2026年4月20日-4月26日

本期要闻轮值:丁莉


中国顶级大模型,开始主动为国产芯片“量体裁衣”。

4月24日,DeepSeek-V4预览版以巨量参数之姿亮相,其中,DeepSeek-v4-pro版本参数为1.6万亿,DeepSeek-v4-flash参数为2840亿。但比模型本身更引人注目的,是其硬件验证清单——华为昇腾与英伟达GPU并列其中。

长期以来,中国大模型的训练与推理几乎完全依赖英伟达的GPU和CUDA生态,国产芯片顶多扮演“备选项”的角色,与模型进行后期兼容(Day 0适配)。

但此次,行业惯例开始被打破,DeepSeek-V4未向英伟达和AMD提供早期访问权限,反而将之优先开放给华为昇腾芯片,从而获得数周时间进行底层适配,包括指令集、算子库及推理框架的优化,双方从设计阶段即开始了芯模紧密协同。

适配国产芯片,远非简单的“换个零件”。

英伟达构建的是一座从硬件、互联网络到软件操作系统(CUDA)的完整生态帝国。将模型切换到国产芯片,需要克服架构差异、软件栈成熟度、工具生态等多重障碍。

对此,DeepSeek-V4通过DSA(稀疏注意力)与混合注意力机制,对百万字长上下文进行压缩,让模型学会“抓重点”;同时,依托MoE架构,V4-Pro虽拥有1.6万亿总参数,但每次推理仅激活约490亿参数。这些都降低了推理对显存和算力的原始需求。

智源研究院的FlagOS系统进一步促进了底层算子的迁移。它通过“FlagGems全算子替代”等技术,将核心优化内置到模型框架中,实现了对华为昇腾、沐曦等超8款AI芯片的适配。

经深度优化后,DeepSeek-V4在华为昇腾芯片上的推理速度较初期版本提升了35倍,华为CANN框架与英伟达CUDA的代码兼容性已逼近95%。DeepSeek官方还明确表示,预计下半年昇腾950超节点批量上市并部署后,V4-Pro版本的价格将大幅下调。

图源:Artificial Analysis

这也意味着,供需共振的循环逐渐形成。头部模型的大规模采用,为国产芯片提供了真实的压力测试和需求拉动;国产算力供给又反过来为模型的迭代和降价创造了条件。

2025年,国产AI芯片在国内市场的份额已跃升至41%,其中华为昇腾占据了近半国产份额。

但DeepSeek-V4在部分能力上与国际最顶尖的闭源模型仍存在差距,国产算力在训练侧的大规模

登录后获取更多权限

立即登录

校对:赵立宇

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}