玉林实硕医疗科技有限公司

您的位置：首頁 > 產經 >

谷歌PaLM 2細節曝光：3.6萬億token，3400億參數獨家焦點

來源：華爾街見聞 ? 2023-05-19 09:02:34

谷歌最新大語言模型PaLM 2，更細節內幕被曝出來了！

據CNBC爆料，訓練它所用到的token數量多達3.6萬億。

這是什么概念？

(相關資料圖)

要知道，在去年谷歌發布PaLM時，訓練token的數量也僅為7800億。

四舍五入算下來，PaLM 2足足是它前身的近5倍！

（token本質是字符串，是訓練大語言模型的關鍵，可以教會模型預測序列中出現的下一個單詞。）

不僅如此，當時谷歌發布PaLM 2時，只是提到“新模型比以前的LLM更小”。

而內部文件則是將具體數值爆料了出來——3400億個參數（初代PaLM是5400億）。

這表明，谷歌通過技術“buff加持”，在參數量更小的情況下，讓模型可以更高效地完成更復雜的任務。

雖然在已經維持了數月的AIGC大戰中，谷歌一直“全軍出擊”，但對于訓練數據的大小或其他細節信息，卻是遮遮掩掩的態度。

而隨著這次內部文檔的曝光，也讓我們對谷歌最in大語言模型有了進一步的了解。

PaLM 2要在廣告上發力了

關于谷歌上周發布PaLM 2的能力，我們就不再詳細的贅述（可點擊此處了解詳情），簡單總結下來就是：

接受了100多種語言的訓練，在語言理解、生成和翻譯上的能力更強，更加擅長常識推理、數學邏輯分析。

數據集中有海量論文和網頁，其中包含非常多數學表達式。

支持20種編程語言，如Python、JavaScript等常用語言。

推出了四種不同size：“壁虎”版、“水獺”版、“野?！卑婧汀蔼毥谦F”版（規模依次增大）。

至于使用方面，谷歌在發布會中就已經介紹說有超過25個產品和應用接入了PaLM 2的能力。

具體表現形式是Duet AI，可以理解為對標微軟365 Copilot的一款產品；在現場也展示了在Gmail、Google Docs、Google Sheets中應用的能力。

而現在，CNBC從谷歌內部文件中挖出了其在PaLM 2應用的更多計劃——進軍廣告界。

根據這份內部文件，谷歌內部的某些團隊現在計劃使用PaLM 2驅動的工具，允許廣告商生成自己的媒體資產，并為YouTube創作者推薦視頻。

谷歌也一直在為YouTube的青少年內容測試PaLM 2，比如標題和描述。

谷歌在經歷了近20年的快速發展后，現在已然陷入了多季度收入增長緩慢的“泥潭”。

也由于全球經濟大環境等原因，廣告商們也一直在在線營銷預算中掙扎。

具體到谷歌，今年大多數行業的付費搜索廣告轉化率都有所下降。

而這份內部文件所透露出來的信號，便是谷歌希望抓住AIGC這根救命稻草，希望使用生成式AI產品來增加支出，用來增加收入并提高利潤率。

據文件顯示，AI驅動的客戶支持策略可能會在100多種谷歌產品上運行，包括Google Play商店、Gmail、Android搜索和地圖等。

訓練數據缺乏透明度，越發被熱議

不過話說回來，包括谷歌在內，縱觀大多數大語言模型玩家，一個較為明顯的現象就是：

對模型、數據等細節保密。

這也是CNBC直接挑明的一個觀點。

雖然很多公司都表示，這是因為業務競爭所導致的，但研究界卻不這么認為。

在他們看來，隨著AIGC大戰的持續升溫，模型、數據等需要更高的透明度。

而與之相關的話題熱度也是越發的激烈。

例如谷歌Research高級科學家El Mahdi El Mhamdi便于二月份辭職，此舉背后的原因，正是因為他覺得公司缺乏透明度。

無獨有偶，就在OpenAI CEO Sam Altman參與聽證會期間，便“反向”主動提出立法者進行監管：

如果這項技術出了問題，那就可能會是大問題……我們希望合作，防止這種情況發生。

截至發稿，對于CNBC所爆料的諸多內容，谷歌方面暫未做出回應。

本文作者：金磊，來源：量子位，原文標題：《谷歌PaLM 2細節曝光：3.6萬億token，3400億參數》

風險提示及免責條款市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

關鍵詞：