當大模型不再稀缺:得數據者得天下
緊隨OpenAI、谷歌的步伐,國內大模型軍備競賽正打得火熱。繼百度、三六零之后,本周阿里、華為、京東等大模型陸續浮出水面。
大模型不再稀缺之后,AI競賽的下一步將走向何處?民生證券分析師呂偉發表研報指出,盡管目前表面上大模型百花齊放,但是能夠擁有高質量數據場景助力持續迭代,使得逐步性能逼近ChatGPT的大模型預計最終仍是“鳳毛麟角”。數據將成為差異化競爭的關鍵,最終是得數據者得天下。
分析師認為,未來的AI競爭中,三類企業將掌控主動權:
(資料圖片僅供參考)
1.同時擁有搜索引擎、瀏覽器、辦公插件等高質量數據的公司;
2.掌握音箱、攝像頭等物聯網終端數據的公司;
3.垂直行業有絕佳數據卡位優勢的企業。
具體來看:
搜索引擎公司
搜索引擎公司天然具備數十年網絡爬蟲積累的高質量互聯網數據資源,而且憑借這一數據卡位戰略入口,其數據資源與質量仍將不斷迭代提升:當搜索引擎爬蟲完成對某個網站或者某個主題下所有相關網站的抽取后,需要對其進行處理和分析。這通常包括以下幾個方面:1)數據清洗與去重;2)數據挖掘與分析;3)建立索引以便后續查詢。
繼微軟公司已經在其必應(Bing)搜索引擎中部署ChatGPT系統背后的技術后,據《華爾街日報》4月6日報道,谷歌CEOSundarPichai透露,谷歌計劃在其搜索引擎中添加AI對話功能,目前該公司正在對幾種搜索引擎版本進行測試。他表示,此舉是為了應對ChatGPT等聊天機器人帶來的競爭和商業壓力,但聊天機器人不會對谷歌的搜索業務構成威脅,AI的進步反而能進一步增強谷歌的信息檢索能力。
從GPT-1的1.17億參數到GPT-2的15億參數,再到GPT-3劃時代的1750億參數,OpenAI依托篩選過的優質數據形成參數量的階梯式上升,最終帶來GPT-3乃至ChatGPT具備理解上下文、連貫性等諸多先進特征。
在提出GPT-3的論文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一萬億文字(參數)的數據庫后,放棄直接使用海量數據訓練模型,而是轉向通過三種模式篩選優質數據進行訓練,從而從萬億參數歸納出眾人所熟知的1750億參數,其核心原因在于“未經過濾或輕度過濾的爬蟲數據往往比篩選后數據集質量更低”。
物聯網終端
近期天貓精靈。通過音箱端接入阿里大模型,做出了一款阿里版ChatGPT個性化語音助手,標志這一趨勢已經開啟。AIoT終端的“賣鏟人”以及視頻攝像頭數據入口企業都擁有巨大優勢。
垂直行業有絕佳數據卡位優勢的企業
彭博新聞社近期發布了專門為金融領域打造的大型語言模型(LLM)—BloombergGPT就是垂直數據優勢“挑戰”巨頭通用大模型的案例。
在過去40年里,彭博收集了海量的金融市場數據,擁有廣泛的金融數據檔案,涵蓋一系列的主題。使用該公司數據終端的客戶遍布全球,包括交易員、投行、美聯儲、美國其他官方機構以及全球各大央行等。這些特有數據,使得BloombergGPT比ChatGPT擁有更專業的訓練語料。
據彭博社發布的報告中可以看出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,構建了一個3630億個標簽的數據集,并基于通用和金融業務的場景進行混合模型訓練,以支持金融行業內各種各樣的自然語言處理(NLP)任務。
映射至國內,掌握垂直優質數據的公司,將有機會開發自己的BloombergGPT。
本文主要觀點來自民生證券呂偉(執業:S0100521110003)發表的研報《當大模型不再稀缺:得數據者得天下》,有刪節
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: