玉林实硕医疗科技有限公司

賽道Hyper | 英偉達超算機:定義AGI算力集群|環球快資訊

英偉達創始人兼CEO黃仁勛,不但是個出色的技術工程師,也是位杰出的市場管理專家和營銷大師。 


(資料圖片僅供參考)

黃仁勛的營銷才能,從其對GPU的定義可以窺視。原先,GPU只是一張顯卡,后來黃仁勛將服務器也稱為GPU。最近,“黃氏”GPU定義,已擴展至CPU疊加GPU內存算力集群。 

英偉達最近發布的超級計算機DGX GH200,從參數上看,性能極為驚人,結構也堪稱精巧。但是,從技術原理上看,DGX GH200原本很可能并非為AI集訓所設計,其內核Grace Hopper是決策型AI(為AI推薦系統所用)性質。 

從結構設計上看,DGX GH200從決策型AI“轉型”到LLM方向,但其真正價值并非為LLM定制,而是其可擴展性、以及將CPU內存與GPU內存,通過NVLINK C2C組件整合起來的技術,從而實現黃仁勛將GPU的定義擴展為超算集群的邏輯自洽。 

至于真正的為LLM定制的針對性綜合解決方案,黃仁勛還沒給出答案。 

CPU+GPU=?

DGX GH200的核心是Grace Hopper(CPU+GPU)。每臺DGX GH200,都搭載了多達256個Grace Hopper。 

黃仁勛將Grace Hopper稱為“superchip”(超級芯片),這很像是一種營銷表達。 

實際上,Grace是CPU,確實是為AI而生,但本身的技術特性不是高性能CPU算力,而是能耗控制。換句話說,Grace負責還過得去的算力性能;Hopper則是GPU,與印象中的英偉達GPU負責AI算力不同,“Grace Hopper”中的Hopper,負責的是散熱。 

根據英偉達技術白皮書顯示,Hopper是英偉達基于Hopper架構的GPU(即H100系列),而Grace則是英偉達自研的基于ARM架構的高性能CPU。 

這顆芯片的CPU核(core)型號是Arm的公版neoverse N2。根據英偉達在2021年發布Grace Hopper時的PPT信息,Grace是一款包含了76個CPU核的N2多核處理器。 

通過LPDDR5X(內存)通信接口,Grace接了高達512GB的內存(實際480GB),內存帶寬也達到546 GB/s;Hopper(GPU)則通過HBM3(顯存)接口接了最多96GB的顯存,帶寬可達3TB/s。 

LPDDR,即Low Power Double Data Rate,中文全稱“低功耗雙倍數據速率”,是美國JEDEC固態技術協會(JEDEC Solid State Technology Association)面向低功耗內存制定的通信標準。 

LPDDR有時候也等同于Low Power Double Data Rate SDRAM,中文全稱“低功耗雙信道同步動態隨機存取內存”。通常,這以先進封裝技術直接堆在CPU處理器上方,以低功耗和小體積著稱,是移動應用場景的主流內存產品。 

2019年2月,JEDEC發布JESD209-5,即LPDDR5低功耗內存傳輸速率(通信)標準。相較于2014年發布的第一代LPDDR4標準,LPDDR5的I/O速度提升到6400 MT/s,實現翻番。 

基于LPDDR5的性能基礎,LPDDR5X更進一步:數據傳輸速率從6400Mbps增至8533Mbps,對于支持8533Mbps LPDDR5X內存的移動SoC,其峰值理論可用帶寬將進一步增長到68.26GB/s,從而賦予更廣泛的設備擁有更多基于AI和5G的功能。 

Grace用了LPDDR5X,就其16GB的容量而言,即使用了8片,CPU的總容量也只有128GB,遠遠達不到決策AI所需要的存儲空間,更遑論對LLM的容量支持要求。但黃仁勛采用了新的結構,也就是集成8顆Grace CPU,還將之互聯成一個Unified Memory。 

這時,內存容量就高達1TB(8*128G),等于用X86的2S結構,相當于512GB per Socket的1TB容量。 

回到Grace Hopper超級芯片,其高達144TB的Memory(顯存)量,實際上是LPDDR5X的內存疊加HBM3的顯存,即256組的CPU 480GB內存(LPDDR5X)疊加GPU 96GB顯存(HBM3)。簡單折算下,就是每個節點8組搭配,約3.75TB的CPU內存加上768GB的顯存。 

乍看上去,如此神一樣存在的存儲容量令人驚嘆。但實際上,Grace Hopper的整體容量,除了內存還包括顯存,這是從所未見的結構設計。但這種結構忽略了CPU同樣令人驚奇的延遲。 

這問題該怎么解決?若解決不了,以Grace Hopper為核心的DGX GH200,速度比蝸牛還慢,還怎么訓練AI? 

因此,杰出的技術工程師黃仁勛,在Grace Hopper中,還應用了至關重要的組件“NVLink C2C”。這個組件的核心是NVLink通信協議,將Grace的CPU與Hopper的GPU之間傳輸數據量的帶寬,以900GB/s的帶寬速率聯系起來,遠超常規的64GB/s帶寬速率。 

這就是黃仁勛敢于將LPDDR5X內存的CPU容量算到DGX GH200超算機整體存儲規格的底氣。雖然疊加高容量CPU內存會帶來超級延遲的不利后果,但GPU對延遲并不敏感,通過以NVLINK通信協議為核心的NVLINK C2C組件,將CPU的內存變成了GPU內存,以此消除高容量CPU內存帶來的延遲。 

這種結構和部件設計,也是DGX GH200超算機引以為傲的可擴展性特征。 

價值和不足

DGX GH200超算機的性能取決于存儲空間的大小。144TB還能擴展嗎?當然可以。這可通過將Grace Hopper與英偉達Bluefield DPU的接口連接InfiniBand,這樣就可進一步擴展到更大的規模,從而實現更高性能的計算。 

雖然看上去有144TB超級內存空間,900GB/s的傳輸速率也相當牛逼,但平均下來每組Grace Hopper的帶寬也就200GB/s,與144TB共享顯存帶寬差太遠。 

總體來說,對DGX GH200超算機的性能來說,Grace Hopper芯片組的結構設計是關鍵,而英偉達的NVLink協議具有的超高性能數據互聯能力是關鍵中的關鍵,核心中的核心。通過提供高達900GB/s的帶寬并且提供一致性接口,Grace Hopper實現強悍的可擴展性。 

Grace Hopper中CPU與其他高性能服務器端ARM CPU的區別,也許就是對于NVLink接口的支持,而這也成了Grace Hopper的最顯著亮點。 

雖然英偉達發布的DGX GH200超算機,其內核Grace Hopper的結構設計和軟件超高速一致性內存接口NVLink的奇思妙想,并非是對AGI做的針對性整體解決方案。但是,黃仁勛的技術和結構設計能力肌肉秀,真正的價值是對處于AI生成式技術和應用階段,對具有超強性能的算力集群產品做出符合AGI階段的標準定義。 

這里可能需要簡單解釋下為什么DGX GH200超算機不是為AGI做出的針對性解決方案,而是主要面向決策式傳統AI的推薦系統。 

首先,DGX GH200超算機的核心結構Grace Hopper芯片組發布于2021年。那時雖然AGI也在迭代中,但遠遠沒有像2022年12月OpenAI發布的ChatGPT-3.5這種現象級應用帶來的轟動效應,因而也沒有像現在這樣全球范圍內的廣泛關注度。 

其次,從技術原理看,傳統AI決策型推薦系統的特點是內存占用大,但計算數據要轉換的熱數據(指頻繁訪問的在線類Data)并不多。因此,通行的做法是,通過系統設計,在CPU內存中臨時存放熱數據,再以GPU側的HMB顯存做cache并導入熱數據,對帶寬和CPU內存速度要求不高。 

大模型的數據轉移特征是什么?內存占用也不小,但每次計算來回流動的基本是熱數據,少有數據集之類的冷數據。所以就兩難,若選擇將海量熱數據放到LPDDRX5,帶寬還是有點不夠(畢竟每組Grace Hopper帶寬也只有200GB/s);若放冷數據,成本又太高。 

這里還有個問題,就是維護成本極高。Grace Hopper就物理形態看,CPU和GPU還各自獨立,這兩種芯片互聯使用的是PCB板上的走線。在技術邏輯角度,這兩種物理芯片的存儲空間通過NVLink C2C組件和NVLink協議,被集成為一個整體。 

因此,高度集成的Grace Hopper,但凡壞一塊LPDDR5X,整個芯片組就要報廢。這樣的維護成本,除了巨頭比如微軟和谷歌這種不差錢的公司,其他公司都難以承受。 

綜合來說,Grace Hopper的LLM應用,在DGX GH200超算機的技術叢集中,并沒有顯現出驚艷的亮點;其結構設計確實表現出色,但這很像是以LLM需求所做的微調。因為這個結構,發布于2021年,那時LLM應用方向也還并不向今日這樣如此明確。

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: