谷歌挑战英伟达:TPU的崛起之路

TPU近来受到热捧,核心原因是AI大模型对算力的需求发生了“质变”。

TPU的成功高度依赖谷歌的“数据-软件-硬件”闭环生态。

“谷歌TPU打破了英伟达在AI训练市场的垄断,证明了专用路线的可行性。”

责任编辑:冯叶

2025年7月26日,上海,谷歌参展WAIC世界人工智能大会。视觉中国/图

2025年7月26日,上海,谷歌参展WAIC世界人工智能大会。视觉中国/图

2026年1月初,美国知名半导体与AI研究机构SemiAnalysis披露,人工智能公司Anthropic计划直接采购近一百万颗谷歌最新一代TPU v7系列芯片。相关交易尚未得到谷歌确认,但已引发广泛关注。

长期以来,在大模型训练与推理的核心算力市场,英伟达的GPU(图形处理器)几乎是最优选择。凭借其强大的CUDA软件生态和通用计算能力,英伟达得以制霸行业基础设施。

相比之下,谷歌自研的TPU(张量处理器)虽存在多年,却鲜少进入公众视野。

变化发生在过去一年。全球两款顶尖大模型——谷歌的Gemini 3和Anthropic的Claude 4.5 Opus,被爆出大部分训练和推理都依赖于TPU。苹果、Meta、Midjourney甚至OpenAI,也都传出在不同场景下已使用或计划使用TPU的消息。

与此同时,谷歌对TPU的供给方式,也从单纯依附云服务租赁,转向更为灵活的商业化路径。TPU与GPU究竟有何不同?它是否正在成为AI算力竞争中的有力变量?

为谷歌而生

TPU的诞生,源于谷歌内部的一场算力危机。

早在2006年,谷歌就考虑过为人工智能构建专用芯片(ASIC)的可能性。但直到2013年,谷歌才真正意识到,未来对AI计算的需求,或将远超当时基础设施所能承载的上限。

那时,谷歌正计划在全球范围内推出语音识别功能。其首席科学家杰夫·迪恩(Jeffery Dean)曾在采访中介绍,团队做过粗略估算,如果数亿用户每天使用3分钟语音识别服务,所需算力将是谷歌全部数据中心算力的两倍。

谷歌团队评估了多种现有方案,结论是它们甚至难以满足其产品当下的基础机器学习需求,更无法支持未来增长。于是,谷歌决定设计一种全新的芯片。

硬件工程师诺曼·乔皮(Norman Jouppi)于2013年加入谷歌,成为TPU项目的关键推动者之一。

他后来向媒体回忆,团队曾考虑像微软一样,采用FPGA(可编程芯片)路线。这类芯片可以按需编程以适配不同任务。但在实际测试中,它在AI计算上的性能表现并不优于GPU,成本还更高。最终,团队转向自研专用芯片TPU。

按照谷歌的划分,CPU(中央处理器)如同计算机的“通用大脑”,处理各类复杂指令;GPU(图形处理器)配合CPU,用于图形处理、图像渲染和复杂的数学计算。

而TPU只专注一件事,高效执行AI所需的大量矩阵运算。其核心在于一种名为“脉动阵列”的架构。

CPU和GPU的计算方式,本质上都是指令驱动型,为了通用性,数据在计算过程中往往需要被反复读取和搬运。

而在TPU里,成千上万个乘加单元被紧密排列在

登录后获取更多权限

立即登录

校对:星歌

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}