玉林实硕医疗科技有限公司

賽道Hyper | 英偉達封神:潛在對手已現|焦點速遞

ChatGPT的出現,不但讓AI有了比較明確的商業化方向,也在快速改變服務器產業格局。

傳統基于x86架構的CPU芯片,在服務器領域的統治地位,已岌岌可危。

美國證券半導體分析師在最近發布的一份報告中提到,由于ChatGPT對云計算以及IDC的AI算力需求激增,很可能導致商業模式選擇將資源轉向AI加速器芯片,比如NVIDIA(英偉達)的GPU(圖形處理單元)和Broadcom/Marvel的AI定制IC(用于AI推理)。


(資料圖)

因此,傳統x86架構的、主要由Intel/AMD提供的服務器CPU,到2025年,可能不再是服務器的主要芯片。

同時,更重要的事情發生了:盡管英偉達的GPU產品如今在支撐ChatGPT的算力需求時,風頭無倆,但挑戰者(或稱分羹者)卻已出現。

正所謂:螳螂捕蟬,黃雀在后。這只黃雀,是何方神圣?

英偉達:超越x86架構芯片

Vivek Arya,這位半導體分析師在報告中認為,基于傳統x86架構的服務器CPU芯片商,比如Intel或AMD,正在遇到NVIDIA這個AI領域領頭羊公司的強力挑戰。

GPU是英偉達的主要產品,其營收占總收入的80%+。GPU通常作為插入PC主板的卡出現,也有些SoC芯片設計商,將GPU作為SoC芯片的一個模塊,整合在系統級芯片中成為一個整體(比如高通驍龍8Gen 2)。

英偉達的GPU芯片,主要作用是為AMD或英特爾等公司制造的中央處理器(CPU)增加計算能力。

Vivek Arya在報告中估計,2023年至2025年,AI加速器芯片的銷售額將超過400億美元(相比2022年復合年均增長率達37%)。于此對應,x86 CPU復合年均增長率僅3%,銷售規模也僅為260億美元。

在ChatGPT出現前,英偉達GPU主要在計算機圖形學領域稱王。在PC游戲玩家群體中,英偉達是神一樣的存在。

英偉達在GPU領域的主導地位,并非始于今日。1999年,英偉達通過GeForce 256進入圖形處理市場。20多年后的2022年,游戲業務帶給英偉達超過90億美元的營收。

2022年12月,OpenAI發布ChatGPT。由于ChatGPT對算力的極度渴求,相當于給算力爆棚的英偉達安裝了一組營收動力引擎。算力構成了AI商業繁榮的基礎。Vivek Arya說,“使用英偉達的GPU,去增加更多的計算能力非常容易?,F在,計算能力相當于硅谷的貨幣?!?/p>

作為支撐ChatGPT背后大型語言模型(LLM)底層動力引擎,英偉達由于在AI方面的敏銳洞察力、早期投資和堅定不移的堅持投入,因而獲得了頂級回報。

3月20日-23日,在英偉達舉行的年度GTC開發者大會上,AI成為主要與會者討論的主要焦點。英偉達首席執行官黃仁勛在被問及“提前20年布局AI,到底是運氣還是有先見之明”時,黃仁勛回答了這么一句:“我們只是相信總有一天會發生新的事情,其余的一切都需要一些偶然性”。

如今AI芯片組云市場主要分為三個部分:公共云由云服務提供商托管:AWS、微軟、谷歌、阿里巴巴、百度和騰訊等;其次是企業數據中心,性質是私有云和混合云,即結合公共云和私有云(VMware、Rackspace、NetApp、HPE和DELL)的產品。

除了公共云、私有云和混合云,ABI Research首席分析師蘇連杰認為,還有電信云,即電信公司為其核心網絡、IT和邊緣計算工作負載部署的云基礎設施。

英偉達的GPU在云端訓練方面的主導地位無可撼動。但與此同時,從2020年起,ASIC(專用定制芯片)在AI推理領域也出現強勁增長。

蘇連杰說,一些云服務提供商(CSP)認為,推理工作量的規模并不小于訓練工作量。ASIC是AI加速器芯片中用于推理的部分,另一部分即用于訓練的GPU。

事實上,即使是在2022年12月OpenAI發布的ChatGPT 3.5版本中,也確實出現了ChatGPT能根據用戶“投喂”問題素材的上下文,做出合乎人類邏輯的精確推理。ChatGPT 4.0版本,推理能力更強。

挑戰者谷歌的TPU技術特征

如果看AI定制芯片具備的推理能力,實際上可以發現,英偉達并非缺乏潛在挑戰者。

從技術上看,谷歌的TPU(張量處理單元)能同時處理“云上”訓練和推理,而非英偉達GPU大部分被用于訓練,而ASIC又主要用于推理。因此,谷歌的TPU被視為?CPU?和?GPU?技術的有力挑戰者。

蘇連杰認為,谷歌在TPU方面的展示的AI技術能力,正為云服務提供商開發屬于自己的AI加速器ASIC提供了方向和技術路徑。華為、AWS(亞馬遜)和百度已經這樣做了。

就像英偉達很早就布局AI算力那樣,谷歌做TPU同樣很早。

2006年,谷歌考慮為神經網絡構建專用集成電路(即ASIC),到2013年,谷歌意識到神經網絡(NPU)快速增長的計算需求,對ASIC的需求量很可能會翻番。2015年,谷歌將TPU部署到服務器中,并快速迭代。

谷歌TPU如今已迭代到V4.0版。據谷歌4月6日披露,得益于互連技術和領域特定加速器(DSA)方面的關鍵創新,谷歌云TPU v4在擴展ML(機器學習:Machine Learning)系統性能方面比其前代版本有了近10倍的飛躍。

TPU v4是谷歌于2021年推出的、專門用于執行機器學習(ML)的AI芯片,是谷歌第5代特殊領域加速器(DSA:Domain Specific Accelerator)及第3代用于ML模型的超級計算機平臺。

與英偉達的當紅辣子雞A100相比,TPU v4速度快1.2-1.7倍,功耗低1.3-1.9倍。

基于這款芯片,谷歌研發了一臺擁有4096顆TPU?V4的超級計算機。這也是第一個部署可配置OCS(光電路開關)的超級計算機平臺。

OCS可動態配置互聯拓撲,以提升擴展性、可用性、利用率、模塊化、安全、性能及用電效率。和Infiniband相比,OCS及其底層光纖組件,系統成本不到5%;OCS和底層光學組件更便宜、功耗更低且速度更快,無需光到電到光的轉換或耗電的網絡分組交換機,從而節省了電力。TPU v4芯片用電率僅200w,二氧化碳排放比一般本地部署的數據中心減少20倍,是執行大型語言模型的理想平臺。

TPU v4超級計算機的每顆TPU v4包含SparseCores,這是一種更接近高帶寬內存的中間芯片或資料流處理器,許多AI運算都發生在該芯片中,可使深度學習模型嵌入(Embeddings)執行速度提升5-7倍,裸晶(die)面積僅5%。

借由Sparsecores,搭載TPU v4的系統可用于執行搜索、廣告、YouTube和Google Play的AI內容推薦。

更令英偉達感到有威脅的是,谷歌宣布,提供AI文本生成圖片服務的AI創業公司Midjourney已利用Google Cloud TPUv4來訓練其第4版模型。

就像英偉達的GPU在AI大模型做集群訓練時,注重生態體系構建一樣,谷歌也算法-芯片協同方面做巨額投入。

如今,半導體硬件的技術迭代已接近摩爾定律的極限,未來AI芯片性能要百尺竿頭更進一步,就硬件層面的提升空間越來越小。算法和芯片的協同設計將取而代之,成為行業主流;搭建軟硬件生態體系和推動行業共建,將在未來成為半導體技術和應用的主要方向。

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: