堅持不用GPU!Meta又要All in自研AI芯片?
就在整個硅谷都在以自家公司拿到多少塊英偉達的AI芯片(A100 GPU)為傲時,有這么一家倔強的公司,堅持不用英偉達的GPU,決定自研AI芯片。
(相關資料圖)
這家公司就是Facebook的母公司Meta。
5月18日本周四,Meta披露了旗下數據中心項目支持AI工作的細節,提到已經打造一款定制芯片,簡稱MTIA,用于加快生成式AI模型的訓練。這是Meta首次推出AI定制芯片。Meta稱,MTIA是加快AI訓練和推理工作負載的芯片“家族”的一分子。
MTIA全稱為Meta訓練和推理加速器。MTIA是一種ASIC,也就是將不同電路集成在一塊板上的芯片,可以將它進行編程,執行一項或多項任務??雌饋砗虶PU的功能類似,對不對?
和現在全球都在搶著用的英偉達A100 GPU相比,Meta自稱這款芯片也有優勢。Meta稱,MTIA采用開源芯片架構RISC-V,它的功耗僅有25瓦,遠低于英偉達等主流芯片廠商的產品功耗。
而且,為了凸顯自己在AI領域早有布局,Meta稱,第一代MTIA芯片在2020年就已經設計完成,采用的是7納米工藝。Meta說,打造第一代MTIA芯片的目的是提高內容推薦模型的效率,以便更精準地為用戶推薦廣告等內容。此外,第一代MTIA可以將內部128MB的內存擴展到高達128GB。在Meta設計的基準測試中,它處理了低等和中等復雜度的AI模型,效率高于GPU。
對于投資者關于Meta為什么不直接采用GPU的質疑,Meta的軟件工程師Joel Cohurn特別介紹稱,Meta并非不是沒有嘗試過GPU,而是在最初使用GPU執行推理任務時,發現GPU不太適合這種工作。用GPU固然可以大幅優化軟件,但對真實模型的效率很低,現實配置時難度大、成本高。所以Meta認為,靠人不如靠己,需要搞個MTIA。
不過,Meta也承認,盡管在處理中低復雜程度模型時效率更高,但MTIA芯片在處理高復雜度AI模型時卻問題多多。
Meta間接承認,要想讓MTIA達到英偉達A100的水平,尚有差距。Meta表示,這款芯片在內存和網絡領域的工作還未完成,隨著AI模型發展,這些工作會出現瓶頸。目前,MTIA 的重點放在Meta應用家族的推理方面,而不是訓練。不過Meta強調,MTIA“大大”提高了單位瓦特的推薦負載運行效率,讓公司能運行加強版的、更尖端的AI工作負載。
Meta本周四并未披露配置新芯片的時間表,也未說明具體有什么計劃開發可能訓練模型的芯片。
Meta在AI領域已經落后同行
去年底ChatGPT大火之后,AI成為全球科技界最熱門的話題。AI芯片的主流制造商英偉達賺得盆滿缽滿,一度被視為已經落伍的微軟借著投資OpenAI成功逆襲,向來宣稱在AI領域投資諸多的谷歌倉促發布Bard應戰,以及一眾互聯網大廠面對英偉達的“霸權”紛紛宣布要自研AI芯片……
這中間,獨獨沒有Meta的蹤影。
上個月,有媒體爆出一個大瓜,Meta如今居然還在用CPU來跑AI!
這不僅僅是因為英偉達的A100定價頗高,更是因為Meta之前All in元宇宙留下的后遺癥。扎克伯格決定把全部身家賭在元宇宙上這一戰略,直接榨干了Meta的算力。不管是AI的部署,還是對競爭對手威脅的應對上,Meta的潛力都遭到了極大的削弱。
更不要說去年以來,Meta連續不斷的裁員,讓整個公司人心惶惶,絲毫沒有戰斗力應對突如其來的AI大潮。
這些失誤,引起了前Meta董事會成員Peter Thiel的注意,隨后,他于2022年初辭職。據內部人士透露,在離開前的一次董事會會議上,Thiel告訴扎克伯格和其他高管們,他們對Meta的社交媒體業務太自滿,并且過分關注元宇宙了,這讓公司很容易被競爭對手撼動。
在去年夏末,扎克伯格曾召集高管們,花了五個小時,對Meta的計算能力進行分析。他們需要知道,在開發尖端的AI方面,Meta有多大的能力?
出來的結果,讓所有人倒吸一口涼氣。
根據去年9月20日的公司備忘錄顯示,盡管Meta對AI研究進行了大筆高調的投資,然而主要業務需要的AI友好型硬件和軟件系統都非常昂貴,在這些方面公司的進展相當緩慢。緩慢到,已經阻礙了Meta跟上大規模創新的步伐。
哪怕是Meta All in的元宇宙,要想維持增長,也必須越來越多地依靠AI。
Meta基礎設施負責人Santosh Janardhan強調,無論是開發AI的工具,還是工作流程,Meta都已經遠遠落后于其他對手。
要想追上英偉達有多難?
想要搞AI自研芯片的科技大廠不止Meta一家,但是想要做到英偉達這么成功、達到與之比肩的地位,還有很多路要走。
目前AI領域最常見的芯片是英偉達的A100。根據New Street Research的數據,英偉達占據了可用于機器學習的圖形處理器市場的95%。
A100非常適合支持ChatGPT、Bing AI或Stable Diffusion等工具的機器學習模型,它能夠同時執行許多簡單的計算,這對于訓練和使用神經網絡模型非常重要。
A100背后的技術最初用于在游戲中渲染復雜的3D圖形,它通常被稱為圖形處理器(GPU),但如今A100配置和目標是機器學習任務,并在數據中心運行,而不是在個人電腦中運行。
市場對A100的需求可謂巨大。對AI公司來說,一塊A100是難以支撐起他們的AI夢想的。許多數據中心使用一個包含八個A100的協同工作系統。該系統是英偉達的DGX A100,建議售價接近 20萬美元。
New Street Research的一項估計認為,Bing搜索和ChatGPT的模型可能需要8個A100 GPU才能在不到一秒的時間內響應用戶問題。這意味著,微軟將需要超過2萬個DGX系統,這意味著微軟在AI基礎設施建設上的支出就可能高達40億美元的基礎設施支出。如果谷歌想實現同樣的AI轉型,那么將在DGX上花費800億美元。
更讓硅谷其他公司不敢有所懈怠的是,英偉達并不因為A100的巨大成功而自滿。
當前,英偉達已經開始開始量產下一代AI芯片H100。A100在2020年推出,H100則在2022年開始量產,當然,價格也高于A100。英偉達表示,H100是其第一款針對變壓器進行優化的數據中心GPU,這是許多最新和頂級人工智能應用程序使用的一項越來越重要的技術。
面對當前英偉達在AI芯片領域一家獨大的局面,當前在自研AI芯片領域步子邁得最大的是微軟。
本月早些時候,微軟正在提供財務支持以加強AMD研發AI芯片的努力,并與之合作開發代號為Athena的自研AI芯片,這是微軟在自研AI芯片方面多管齊下、多重下注的一部分。
有分析認為,此舉反映了微軟對芯片行業的介入持續深化。在過去幾年里,該公司一直在英特爾前高管Rani Borkar的領導下建立一個芯片部門,該部門目前擁有近1000名員工。據其中一位知情人士稱,其中數百名員工正在從事Athena項目,微軟已在該項目上投入了約20億美元。
但這并不預示著微軟和英偉達的分裂。微軟打算與英偉達保持密切合作,該公司的芯片是訓練和運行AI系統的主力軍。微軟還試圖獲得更多英偉達芯片,這進一步凸顯了微軟和其他公司面臨的AI芯片的緊迫短缺。
4月中旬,據媒體援引兩位知情人士的話說,微軟早在2019年就開始開發內部代號為Athena的AI芯片。其中一位知情人士稱,一些微軟和OpenAI的員工已經開始測試并使用這些芯片。微軟希望該芯片的性能優于目前從其他供應商處購買的芯片,從而節省其在昂貴的AI業務上的時間和成本。
如此看來,Meta想要趕上英偉達,甚至趕上其他硅谷同行的步伐,還有很長的路要走。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: