焦點關注:大模型進化加速,高質量數據成稀缺性來源 | 見智研究
大模型密集發布期,高質量的數據資源才是推動GPT進化的重要高手。
4月10日,商湯發布日日新大模型,及其衍生產品:商量(自然語言)、秒畫(文生圖)、如影(數字人)、空間3D大模型(瓊宇、格物),大模型涵蓋文本和圖像生成,計劃23年開啟萬億參數大規模大模型訓練,也是多模態大模型。
【資料圖】
此外,在日日新大模型平臺下,還有一個"商量"語言發模型sensechat,可以用在法律、編程以及醫學診斷的專業場景之下。以編程為例,生成代碼的一次通過率達到40.2%,已經超過了Github Copilot。
華爾街見聞·見智研究認為:對于大模型訓練來說,能否未來得到優質的大模型,與投入的數據質量非常關鍵,包括通用參數、文本語言、圖像、視頻音頻等等,投入數據的質量高低,會直接影響模型最終生成的內容。
日日新大模型的亮點包括:
NLP大模型【商量】:擁有1800億參數,類比ChatGPT。支持長文本理解(支持上傳PDF,并可與PDF對話)、輔助編程、手寫OCR等功能,并現場演示在線問診等應用。
文生圖大模型【秒畫】:模型擁有超過10億參數,類比midjourney??奢o助提供提示詞,并生成符合描述的圖片,支持6k高清圖像,并可隨時調整畫風。
數字人大模型【如影】:可根據5min視頻創作屬于自己的數字人,并進行AI換裝、文案生成,可用于直播、視頻生成等場景。
空間3D大模型【瓊宇、格物】:瓊宇使得3D場景實時可交互/編輯,應用涉及數字孿生、建筑設計、影視創作、文旅和電商等。格物使得人/物/場便捷編輯創作,可用于家裝、商業廣告、文旅等場景。
評判大模型是否是一個好的大模型,最關鍵的還是源于投入模型的數據質量,只有高質量的數據才能夠讓大模型訓練出高質量的內容。(大模型的計算量=參數量*處理的數據量)
模型迭代和數據篩選同等重要
三六零、谷歌、百度這類以瀏覽器起家的公司,同樣具有海量數據優勢。見智研究認為:能夠進行持續迭代的大模型具備稀缺性。
像是對于搜索引擎這類公司,天然積累了數十年的高質量網絡數據資源,當搜索引擎完成對某些數據內容的提取之后,可以對其進行分析和處理。包括數據清晰和去重,數據挖掘和分析,建立索引便于日后查詢。
此外,從GPT的發展路徑也能夠看出數據量的重要性。
從GPT1到GPT2參數投入從1.17億增長至15億,到GPT3時參數達到1750億,OpenAI 是通過篩選優質數據形成參數量階梯式上升,最終使得大模型不斷迭代優化,從而得到更好的大模型。
而未經過濾或者輕度過濾的爬蟲數據往往比篩選侯的數據集質量更低,所以參數量的質量是至關重要的,從而得到參數篩選的必要性。
除了文字大模型外,圖片大模型最近也有重大進展。
日前Meta發布可分割圖像AI模型SAM及訓練資料集SA-1B。該模型能夠實現零樣本分割圖像中一切對象,機器視覺迎來GPT-3時刻。根據Meta官網消息 ,SAM目前的數據集包括在約1100萬張許可和隱私保護圖像上收集超過11億個分割標簽。
隨著數據采集需求快速增加,有望帶來下游視覺應用的大爆發,此前困擾CV行業的許多問題將被直接解決。
見智研究認為:SAM可以成為AR/VR、內容創作、科學領域和更普遍的AI系統等領域的強大組件??吹綀D像像素級別的理解和更高層次的視覺內容語義理解之間的緊密耦合,將解鎖更強大的人工智能系統。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: