AI時代數據就是金山銀山! 富達等機構的專有數據變得無比搶手
隨著世界各地的科技公司競相創建類似ChatGPT的生成式人工智能服務,構建它們所需的“基礎原材料”——數據,突然間變得前所未有地搶手。
智通財經APP了解到,富達投資(Fidelity Investments)就是這一趨勢的最新例子:這家全球財富管理巨頭的首席信息官Mihir Shah近日在接受媒體采訪時表示,科技初創企業和一些企業集團都在向這家財富管理巨頭示好,希望獲得其金融服務數據庫。
(資料圖)
對于那些尋求為金融服務行業構建生成式人工智能系統的科技公司來說,富達數十年的線上交易記錄、客戶通話記錄以及面對面的客戶互動報告將是一個巨大的寶藏。據悉,富達擁有大約8PB級別的數據——相當于數萬億頁的印刷文本。
Mihir Shah表示,這家美國投資管理巨頭管理著超過11萬億美元的資金,擁有數千萬級別的客戶,但該機構尚未與任何一家追求者接洽。Shah正在領導一項從富達數據中獲取價值的工作,他表示,該機構已經在考慮建立自己的人工智能模型,盡管還沒有正式決定是否走這條路。他表示,該公司共享的任何數據都將被匿名化,并按照最佳安全級別措施去除個人信息。
ChatGPT等生成式AI提供的堪稱全能的服務基于大語言模型或人工智能系統,這些模型或系統搜集和分析來自互聯網和其他來源的大量數據以及文字,以最終確定如何生成聽起來像人類寫出的文本。隨著企業紛紛尋求降低成本、更好地服務客戶的方法,這項技術在全球范圍內的各行各業引發了興奮情緒——從摩根大通到摩根士丹利等華爾街大型商業銀行都走在了AI科技前列,紛紛將生成式AI用于輔助業務。
ChatGPT的創造者OpenAI、谷歌母公司Alphabet Inc.和Meta Platforms Inc.都是該領域的技術領導者,其中OpenAI得到了微軟(Microsoft Corp.)的支持。他們大多使用幾乎相同的公開數據來訓練他們的AI系統,最終以類似人類的方式理解文本,以及生成人類通用的文本或代碼。
專屬于金融服務行業的LLM模型離問世不遠了
但是,像富達所擁有的超大容量專項數據將使他們的人工智能服務在競爭中脫穎而出,Shah表示,他29年前開始在富達工作,并監督其網站的建設,這是一家大型金融服務公司的第一個網站。他現在正在指導富達全公司范圍內的云數據倉庫的全面創建,以更好地利用這些數據。
Shah通過視頻表示:“區別在于將第一方數據與公共數據結合起來,為金融服務行業建立一個垂直的大語言模型。”“我們已經看到,在科學研究和醫療保健行業出現了垂直的大語言模型?!?/p>
一般來說,一個大語言模型的價值很大程度上取決于它所訓練的數據的數量和質量。人工智能系統需要大量的文本、圖像、聲音和其他信息來學習人類的模式和人類世界的關系,從而可以基于它們生成內容。
開發大語言模型的過程是比較復雜且技術極為密集。通常意義上的常用步驟包括:數據收集、數據預處理、模型選擇、訓練模型、微調模型、測試模型以及部署模型??傊?,大語言模型的開發需要開發者具備一定的機器學習/深度學習、自然語言處理等相關技能和經驗。同時,需要有大量的數據和計算資源作為支撐,才能開發出高質量、高效的模型。
Shah表示,富達的數據被認為非常有吸引力,以至于一些追求者提議為該公司免費建立一個人工智能系統,以換取合作。他表示,富達的很多數據都是相對最新的,是根據最新的合規要求在過去7年里所保存下來。據悉,富達擁有超過4,200萬客戶,并且為數萬家企業管理退休計劃和其他福利項目。
Shah還表示,在決定如何部署數據時,富達需要考慮到人工智能系統面臨的一些挑戰,如可靠性、信息偏見以及如何處理個人身份信息。他表示,與此同時,該公司正在采取措施加強其安全基礎設施,并進一步限制具體哪些名單可以訪問這些數據。
Shah還強調:“我們對這些新工具非常謹慎?!薄皩τ谏墒饺斯ぶ悄?,你不能完全相信其結果?!?/p>
邁入AI時代,數據就是“金山銀山”
隨著OpenAI推出的ChatGPT和谷歌推出的Bard等以消費者應用為中心的生成式人工智能(AI)工具接連問世,全球開始邁入AI時代,現代化的人工智能程序開始使用大語言模型(LLM模型),在海量的數據基礎上訓練人工智能系統,其中的數據內容包括富達龐大的金融數據庫,推特和Reddit等網站上用戶生成的帖子等等。因此,如今掌握大量的數據資源,意味著掌握開發LLM模型的“原材料”。
隨著全球開始邁入AI時代,推特和Reddit顯然已嗅到數據庫帶來的巨大商機,已經開始收費,只有付費的客戶才有資格訪問他們的數據內容。
在6月初,據媒體報道,有著“美版貼吧”之稱的社交媒體和新聞聚合網站Reddit要求開發者支付數千美元才能直接訪問該公司的數據和內容,此舉可能有助于該公司構建更多元化的營收來源。根據一款名為Apollo的流行第三方應用程序的開發者披露的帖子,該公司要求開發者每5000萬次請求支付1.2萬美元。
特斯拉CEO埃隆·馬斯克私有化的推特于在2月份結束了免費的API系統,并引入了付費使用系統。推特在3月宣布對5000萬次請求收取4.2萬美元時,用戶和開發者都感到憤怒。推特提供了三種套餐,其中最便宜的為:每月支付4.2萬美元可以訪問5000萬條推文。套餐等級越高,研究人員或企業獲得的推文數量就越多:每月支付12.5萬美元可以獲得1億條、每個月支付21萬美元可以獲得2億條;每年最高等級收費高達250萬美元。
關鍵詞: