巨頭ChatGPT大戰陷敗局,竟因嫌GPU太貴!Meta用CPU跑AI,點錯科技樹 天天速讀
ChatGPT大戰,Meta為何遲遲沒有動作?
就在今天,路透社記者挖出了一個大瓜,原因讓人瞠目結舌——
相比谷歌、微軟等大廠,Meta跑AI時,用的竟然是CPU!
(資料圖片僅供參考)
很難想象,在深度學習幾乎占機器學習半壁江山的時代,一個科技巨頭竟然能用CPU堅持這么久。
雖然他們也曾嘗試過自研AI芯片,但最終遭遇滑鐵盧。
現在,ChatGPT引爆的生成式AI大戰打得昏天黑地,這就更加劇了Meta的產能緊縮。
用CPU訓練AI,Meta怎么想的?
Meta遲遲不肯接受用GPU的原因,令人匪夷所思。
GPU芯片非常適合AI處理,因為它們可以同時執行大量任務,從而減少處理數十億條數據所需的時間。
然而,GPU也比其他芯片更昂貴,英偉達控制著80%的市場份額,并在配套軟件上,也保持著絕對的領先地位。
直到去年,Meta在處理AI工作負載時,主要使用的還是CPU。CPU是計算機的主力芯片,幾十年來數據中心用的也是CPU,但它在AI工作上表現并不佳。
據悉,Meta還曾自研芯片,在內部設計的定制芯片上進行推理。
但在2021年,Meta還是失望地發現,比起GPU,這種雙管齊下的方法速度更慢、效率更低。而且GPU在運行不同類型的模型上,遠比Meta的芯片更靈活。
而且,小扎決定All In元宇宙這一舉措,也直接榨干了Meta的算力。不管是AI的部署,還是威脅的應對上,都遭到了極大的削弱。
這些失誤,引起了前Meta董事會成員Peter Thiel的注意,隨后,他于2022年初辭職。
據內部人士透露,在離開前的一次董事會會議上,Thiel告訴小扎和高管們,他們對Meta的社交媒體業務太自滿,并且過分關注元宇宙了,這讓公司很容易被TikTok的挑戰所撼動。
Meta粗大事了
在去年夏天快要結束的時候,小扎曾召集了高級副手們,花了五個小時,對Meta的計算能力進行分析。
他們需要知道,在開發尖端的AI方面,Meta有多大的能力?
出來的結果,讓所有人倒吸一口涼氣。
根據9月20日的公司備忘錄顯示,盡管Meta對AI研究進行了大筆高調的投資,然而主要業務需要的AI友好型硬件和軟件系統都非常昂貴,在這些方面公司的進展相當緩慢。
緩慢到,已經阻礙了Meta跟上大規模創新的步伐。
這可是個棘手的大麻煩,要知道,Meta的增長,越來越依賴AI。
基礎設施負責人Santosh Janardhan強調,無論是開發AI的工具,還是工作流程,Meta都已經遠遠落后于其他對手。
「Meta需要從根本上改變物理基礎設施設計、軟件系統和提供穩定平臺的方法?!?/p>
一年多來,Meta一直在搞的大項目,就是希望完善AI基礎設施。但經歷過產能緊縮、領導層變動和廢棄的AI芯片項目后,Meta的改革似乎不盡如人意。
所以,Meta徹底放棄AI芯片了?
對于外媒的這個提問,Meta發言人Jon Carvill表示,公司「在大規模創建和部署最先進的基礎設施方面有著良好的記錄,并有著人工智能研究和工程方面的深厚專業知識。」
「隨著我們為應用程序和消費產品系列帶來新的AI體驗,我們有信心繼續擴展基礎設施的能力,以滿足我們的近期和長期需求?!?/p>
總之,沒有正面回答。
但這次改革,已經耗費了大量的人力物力。
據悉,改革使Meta每季度的資本支出增加了約40億美元,幾乎是2021年支出的兩倍。而且Meta此前建設4個數據中心的計劃,也因此暫?;蛉∠?/p>
Meta的資本支出大增
而這些大筆支出,跟Meta嚴重的財務緊縮期又恰恰重合。
去年11月以來,硅谷的互聯網泡沫開始破滅,Meta一直在大規模裁員。
OpenAI的ChatGPT在11月30日亮相后,立馬引爆了科技巨頭之間的軍備競賽。
此后的生成式AI大戰,吞噬了大量的算力,這更逼得Meta加緊改革。
極力追趕
據悉,Meta在現實面前,不得不選擇低頭。
高管們取消了在2022年大規模推出自研芯片的計劃,轉頭訂購了價值數十億美元的英偉達GPU。
但此時,已經為時已晚。
Meta已經落后于谷歌等同行一大截,谷歌早在2015年就開始部署自己定制的GPU——TPU。
在2022年春天,高管們也同時開始著手重組Meta的AI部門。
這期間發生了長達數月的動蕩,十幾位高管離開了。AI基礎設施領導層,整個經歷了一次大換血。
接下來,Meta的工作也很棘手。
他們得費老大勁重組數據中心,來適應新的GPU,因為GPU比CPU的功耗和產熱都更多,還必須用專用網絡把它們聚在一起。
為了管理集群的熱量,這些設施需要24到32倍的網絡容量和新的液冷系統,因此需要從頭設計。
即便如此,Meta似乎也并沒有放棄自研芯片的路線。
據悉,新的內部芯片會和GPU一樣,能夠訓練AI模型并執行推理,將于2025年左右完成。
懸崖勒馬,回頭是岸
此前,微軟有ChatGPT,谷歌緊忙拉Bard出來對打,Meta卻似乎并不急于下場生成式AI競賽,推出的LLaMA也并不用作商用。
Meta CFO Susan Li在2月承認,Meta并沒有將大部分計算資源投入到生成式AI中,而是基本上將所有的AI能力都用于廣告、feeds和Reels(類似于TikTok的短視頻)。
此前,同谷歌一樣,Meta并不重視生成式AI。Meta的FAIR實驗室從21年底以來,就在發布這種AI技術的原型,研究成果也備受推崇,但Meta從未考慮過將其轉化為產品。
去年11月中旬,Meta的FAIR實驗室曾提出Galactica模型
然而ChatGPT誕生后,一切都不一樣了。投資者的興趣開始飆升,小扎在今年二月官宣了全新的頂級團隊,押寶生成式AI。
據悉,工作的重點是建成一個基礎模型,在這個核心的基礎上,可以針對不同產品進行微調和調整。
All In AIGC?網友:改名MetAI吧
本月早些時候,Meta首席技術官Andrew Bosworth表示,扎克伯格和其他高管現在把大部分時間都花在了人工智能上。
對此,Bernstein的分析師表示,照這個架勢下去,Meta很可能要改名叫——MetAI了。
不過,想要追上OpenAI、微軟和谷歌的步伐,Meta就必須為訓練這些超大規模的生成式AI模型,大肆采購英偉達的芯片(單個組件1萬美金起跳)。
目前,耗時5個月訓練出的「Meta版ChatGPT」LLaMa,用的是2048個80GB顯存的A100。
作為對比,微軟為OpenAI量身定做的超算,搭載的可是上萬塊A100。
而ChatGPT和Bard「決一死戰」的背后,正是英偉達CUDA支持的GPU(圖形處理單元)和谷歌定制的TPU(張量處理單元)。
換句話說,這已經不再是關于ChatGPT與Bard的對抗,而是TPU與GPU之間的對決,以及它們如何有效地進行矩陣乘法。
由于在硬件架構方面的出色設計,英偉達的GPU非常適合矩陣乘法任務——能有效地在多個CUDA核心之間實現并行處理。
因此從2012年開始,在GPU上訓練模型便成為了深度學習領域的共識,至今都未曾改變。
而隨著NVIDIA DGX的推出,英偉達能夠為幾乎所有的AI任務提供一站式硬件和軟件解決方案,這是競爭對手由于缺乏知識產權而無法提供的。
相比之下,谷歌則在2016年推出了第一代張量處理單元(TPU),其中不僅包含了專門為張量計算優化的定制ASIC(專用集成電路),并且還針對自家的TensorFlow框架進行了優化。
而這也讓TPU在矩陣乘法之外的其他AI計算任務中具有優勢,甚至還可以加速微調和推理任務。
不過,微軟與英偉達長久以來的深度合作,讓各自在行業上的積累得到充分地利用,并以此同時擴大了雙方的競爭優勢。
尤其是當ChatGPT開始橫掃整個AI圈時,兩家公司的市值也是一路狂飆。
而這波被ChatGPT帶起來的大模型煉丹潮,更是讓「煉丹爐」供應商英偉達賺得盆滿缽滿。僅在今年的這幾個月里,市值就增長了超過80%。
裁員硅谷第二,野心如何支撐
然而,Meta現在好像并沒有足夠的資金來支撐自己的野心。
眾所周知,這段時間裁員潮繼續席卷了整個科技行業,但有些公司裁得比別人更多。
在比例上,裁掉80%員工的推特毫無疑問地占據了第一的位置,而送走近四分之一員工的Meta緊隨其后。
在數量上,Meta也憑借著高達2.1萬人的巨大優勢位列第二,但這并沒包括即將進行第三輪裁員。
2022年,在小扎宣布大裁員之前,Meta有差不多87,000名員工。但在11月時畢業了11,000人,3月又畢業了10,000人。
據Insider報道,Meta的第三輪裁員會直接影響數千人,而管理層職位更是首當其沖。包括但不限于,現實實驗室、Facebook和Instagram的技術產品經理,以及人工智能研究科學家、軟件工程師、數據工程師等。
最新的一項分析顯示,從2018年到2022年,Meta的員工隊伍膨脹了143%,但每個員工的收入在這段時間內下降了14%。
高管變動、員工流失、資金不足、路線選錯,Meta前方的路,似乎困難重重。
讓我們看看小扎接下來會怎么走。
本文作者:新智元,來源:新智元,原文標題:《巨頭ChatGPT大戰陷敗局,竟因嫌GPU太貴!Meta用CPU跑AI,點錯科技樹》
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: