取代英偉達GPU! Google TPU成為AI算力新霸主?

大B哥

2025年,一則關於Meta計劃大規模採購Google TPU的消息震驚AI產業界,英偉達股價應聲大跌,Google則逆勢大升。市場不禁疑問?Google TPU是否將取代英偉達GPU,成為AI算力新霸主?

真相真的如此簡單?

TPU確實能撼動英偉達的地位,卻永遠無法完全取代。這場競爭是生態、時機與戰略的深度較量。

Google TPU的核心優勢

與英偉達GPU追求通用性不同,TPU從2012年設計之初就專注於大規模矩陣,這正是AI大模型計算的核心。通過放棄圖形渲染等通用功能,TPU在特定場景下實現了極致的能效比和性能表現。實際數據顯示,在超大模型訓練任務中,TPU v5p的token成本定價低於英偉達GPU,這為Google Cloud帶來了顯著的市場競爭力。

Google超強的互聯技術

Google TPU採用獨特的光路交換技術,用光互聯將成千上萬顆TPU動態編織在一起。最新TPU v5p單個Pod可容納8960顆芯片,並能擴展至數萬卡的超級集群。相比英偉達的電互聯方案,光互聯在超大規模並行訓練中展現出更高的帶寬利用率和靈活性,且布線極其整潔,大幅降低了維護複雜性。

完整的軟硬一體生態

Google有XLA編譯器及JAX框架,可以將計算圖直接編譯為TPU機器碼,最大化硬件性能。與此同時,採用函數式編程,在超大規模並行計算中具有先天優勢。不僅Google自家Gemini系列模型完全基於TPU訓練,連Apple在訓練Apple Intelligence基礎模型時也選擇了TPU v4和v5p集群

TPU的劣勢 CUDA難取代

CUDA生態經過20年更新完善,已成為AI開發的操作系統級標準。PyTorch對CUDA的原生支持使得開發者只需幾行Python代碼就能調用底層算力。TPU生態要求開發者從零擁抱JAX/XLA,遷移成本極高。除了大型開發企業,中小型初創公司沒有財才完成這種工作,繼續使用NVDA的CUDA。

現有PyTorch+CUDA項目需要重寫底層代碼,好大可能兼容性問題頻發,模型訓練可能因數值溢出或系統崩潰而失敗。一次全量模型訓練耗時數月、成本千萬美元,試錯成本企業難以承受。

Google TPU的客戶極其有限

Amazon、Microsoft是Google Cloud的競爭對手,絕不可能採用TPU,會開發自家的ASIC晶片。OpenAI是Google的頭號宿敵,xAI與Google積怨已久。Meta雖有採購意向,但作為Google廣告業務的直接對手,且正在開發自研芯片MTIA,不太可能全面依賴Google。

目前主要客戶僅剩Anthropic(Google是大金主)和大學及科研機構。

TPU將成為英偉達的議價籌碼

Google TPU在超大模型訓練這一垂直領域成為唯一能與英偉達交手的,預期10%-15%市占率。TPU的存在將迫使英偉達降低其75%的驚人利潤率,成為Meta等其他企業議價籌碼。

小結

Google TPU與英偉達GPU的關係,不是零和博弈,好大機會互補共生。Google TPU的崛起是AI算力市場走向成熟的重要標誌。Meta也沒有可能全面依賴Google。

未來十年,英偉達繼續統治通用場景,TPU在超大模型專用領域佔據一席之地,其他自研芯片則在特定應用場景發揮作用。

免責聲明 / Disclaimer

本文章僅代表作者個人觀點及分析,不構成任何投資建議、要約或招攬。本平台及作者均不就任何人因使用或參考本文章所作出的任何投資決定而引致的任何損失或損害承擔任何責任。投資涉及風險,投資者應審慎考慮自身情況並諮詢獨立專業意見。本文章不應被視為證券及期貨事務監察委員會(SFC)認可的投資建議或分析。

This article represents solely the personal views of the author and does not constitute investment advice. Neither this platform nor the author shall be liable for any loss arising from investment decisions based on this article. Investment involves risks; seek independent professional advice. This article should not be regarded as investment advice or analysis endorsed by the Securities and Futures Commission (SFC).