玉林实硕医疗科技有限公司

OpenAI成功的背后,鮮為人知的游戲訓練史

2022年,OpenAI旗下ChatGPT橫空出世,人工智能再次成為全球矚目的焦點。ChatGPT的成功得益于OpenAI團隊在人工智能大語言模型和強化學習領域持續不斷地投入、探索和創新。但鮮為人知的是,在OpenAI不斷迭代升級的過程中,電子游戲也曾發揮過舉足輕重的作用。早期的OpenAI 曾在2019年打造出名為OpenAI Five的游戲AI,并成功擊敗了兩屆DOTA2國際邀請賽的世界冠軍OG戰隊(恭喜OG!)。


【資料圖】

前幾天,來自斯坦福大學和谷歌的研究人員也構建了一個名為Smallville的2D虛擬游戲場景,并將25個基于ChatGPT的AI智能體置于該游戲場景中進行訓練,研究發現25個AI智能體實現了對人類行為的可信模擬,他們不僅能夠相互交談,還能夠與自身所處環境互動,記住并回憶它們所做的和觀察到的事情,并作出相應決策。

那么,為什么OpenAI會選擇電子游戲作為訓練和測試AI模型,電子游戲對于AI的發展究竟意味著什么?

鮮為人知:Open AI團隊為AI打造專屬“游戲訓練”平臺

在展開OpenAI與DOTA2的故事之前,不妨簡要回顧下電子游戲與OpenAI那段鮮為人知的歷史,或許能夠幫助我們更好的理解電子游戲與OpenAI之間的關系。

成立于2015年12月美國舊金山,OpenAI最初是一個由小團隊組成的非盈利性質的人工智能實驗室,其目標是通過與其他機構和研究者的“自由合作”,向公眾開放AI專利和研究成果。OpenAI在成立之時并未獲得太多關注,在成立一年后(2016年12月),OpenAI對外發布了首款產品基于電子游戲的AI測試平臺“Universe”。這是一款能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平臺,其發布時間甚至早于第一代GPT(基于轉換器的生成式預訓練模型)產品。

OpenAI 的Universe是一個訓練 AI 通用智能水平的開源平臺,由微軟、英偉達等公司參與建設,其中包含多達1000多種游戲訓練環境,主要包括了各類Flash游戲、Atari 2600游戲,以及《GTA 5》等PC游戲。OpenAI研究人員介紹說,Universe平臺最初是從李飛飛等人創立的ImageNet數據庫項目中獲得啟發,希望把ImageNet在降低圖像識別錯誤率上的成功經驗引入到通用人工智能的研究上來,取得實質進展。

圖1 OpenAI Universe平臺

對于OpenAI而言,打造Universe的最終目標是訓練出一個“通用人工智能”,可以靈活地將在訓練環境中積累和掌握的經驗快速應用到陌生、困難的環境。

當時的人工智能發展已經在“聽、說、看”感知智能取得了一定突破,基于強化學習的AlphaGo也剛剛擊敗了人類圍棋世界冠軍,但在OpenAI團隊看來,這些突破依舊沒有跳出“弱人工智能(Narrow AI)”的范疇,并不具備理解問題的和解決問題的能力。

OpenAI團隊認為,要想讓人工智能具備這種能力,就必須將其置于更為廣泛和復雜的環境中進行訓練,只有通過不斷的訓練,才能讓人工智能發展出可以有效遷移復用的知識和問題解決策略,而電子游戲就是這個“訓練環境”的絕佳選擇。

最佳陪練:OpenAI從DOTA2中學到了什么?

事實上,早在2017年的DOTA2國際邀請賽上,OpenAI的智能體已經能在1v1比賽中擊敗過頂尖人類職業選手;在2018年DOTA2國際邀請賽上嶄露頭角,與人類玩家組成的職業戰隊過招;而到了2019年4月,OpenAI對外宣布旗下的智能體項目OpenAI Five已經能夠在5V5的比賽中擊敗DOTA2世界冠軍OG職業戰隊,成為了首個擊敗電子競技游戲世界冠軍戰隊的AI系統。

OpenAI團隊為什么要選擇DOTA2作為訓練環境呢?在開發OpenAI five之前,OpenAI團隊一直在探尋如何讓AI在深度強化學習方向上實現突破,創造性地提升智能體的效率。當時,一般強化學習(RL)的研究人員傾向于認為,如果想讓智能體在長時間游戲中表現出色,就難免需要一些根本上的新突破,比如采用Hierarchical Reinforcement learning(分層強化學習)的方式,即將復雜問題分解成若干子問題(sub-problem),通過分而治之(divide and conquer)的方法,逐個解決子問題從而最終解決一個復雜問題。

而以規則復雜、要素眾多、環境多變,同時也是全球擁有超高人氣的電子游戲DOTA2,順理成章地成為了OpenAI的首選,正如OpenAI團隊所言“相比標準的RL開發環境,DOTA2顯得更加有趣,也更加困難。但是,如果一個AI能在像DOTA這樣復雜的游戲里超越人類水平,那這個AI本身就是一個里程碑。”相較于AI之前在國際象棋和圍棋里取得的成就,像DOTA2這類復雜的游戲能更好地捕捉現實世界中的混亂和連續性,使其訓練出的AI能夠擁有更好的通用性,使之更有可能應用于游戲之外的人類社會。

為了戰勝DOTA2人類職業戰隊,OpenAI 團隊進行了長達數年的努力,詳細拆解游戲中各類復雜規則和問題,并依次不斷調整優化AI模型。

DOTA2的游戲內容十分豐富,而且還存在“戰爭迷霧”設定,即單位和建筑物只能看到它們周圍的區域,地圖的其余部分被迷霧所覆蓋,AI需要根據不完全信息進行推斷,而國際象棋和圍棋則都是全信息游戲。下圖是OpenAI Five使用的觀察空間和動作空間的交互式演示,它把整張地圖看做一個有2萬個數據的列表,并通過8個列舉值的列表來采取行動:

圖2 OpenAI Five決策過程

在OpenAI戰勝DOTA2 Ti冠軍OG戰隊時,OpenAI Five團隊使用的訓練計算量比2018年的版本增加了8倍,并在10個實時月內經歷了大約4萬5千年的DOTA2游戲,平均每天的游戲量相當于人類玩家250年的積累。

在戰勝人類世界冠軍之后的總結中,OpenAI團隊提及他們在DOTA2中的訓練環境中,學到了最重要的一點是:如果想要提升智能體的性能,其根本并非要實現訓練方法的突破,而是要不斷擴大規模。如果規模夠大、結構夠合理,AI依舊可以表現出強大的能力。正如OpenAI首席科學家Ilya Sutskever 所言“我們堅信越大越好,OpenAI 的目標就是擴大規模?!?/p>

OpenAI在DOTA2上的嘗試,為AI強化學習效率提升提供了方向,這些都成為了ChatGPT的養分。在Ilya Sutskever看來,“通過DOTA2的訓練,OpenAI的學習模式從“強化學習”轉變為了“基于人類反饋的強化學習(RLHF)”,而這些與GPT技術的結合,才最終塑造出了ChatGPT?!?/p>

未來之路:AIGC 助力游戲內容生產

如今,伴隨著以ChatGPT為代表的AIGC技術的成熟,AI也開始反向助力游戲的內容生產。ChatGPT真的能輔助游戲制作嗎?首先,不妨讓我們來聽聽ChatGPT自己的回答:

GPT-4可以在多個方面輔助游戲制作。以下是一些具體的應用場景:

1、游戲劇本和故事創作:GPT-4可以生成故事情節、角色設定和對話,為游戲制作提供創意靈感。

2、任務和關卡設計:GPT-4可以根據提供的游戲類型和主題生成任務、關卡設計和謎題,幫助設計師更高效地制作游戲內容。

3、人工智能NPC:GPT-4可以生成自然的對話和反應,使得游戲內的非玩家角色(NPC)更加真實、有趣。

4、自動生成游戲文檔:GPT-4可以幫助制作團隊編寫設計文檔、技術文檔和測試用例等,提高生產效率。

5、游戲本地化:GPT-4支持多種語言,可以輔助游戲的翻譯和本地化工作,讓游戲能夠更好地適應不同地區的市場。

6、社區管理和客戶支持:GPT-4可以幫助回答玩家的問題、解決技術問題并對玩家反饋進行分類和總結,提高客戶支持的效率和質量。

7、游戲內文本和資源生成:GPT-4可以幫助生成游戲內的文本,如物品描述、任務說明等,減輕游戲開發者的負擔。

8、測試和質量保證:GPT-4可以幫助分析游戲的錯誤報告,確定可能的問題來源,以及為開發團隊提供修復建議。

9、創意概念和美術設計:雖然GPT-4主要以文本處理為主,但它可以為美術設計團隊提供創意概念和設計建議,有助于創造獨特的游戲視覺效果。

通過與游戲制作團隊的協作,GPT-4有望提高游戲開發的效率、創新性和質量。當然,GPT-4仍然是一個AI輔助工具,它不能完全替代人類的創造力和專業知識。在實際應用中,開發者需要根據自己的需求和項目特點,合理地利用GPT-4的能力。

看完以上GPT-4的回答,不禁會想問ChatGPT回答真的能夠在現實中實現嗎?目前來看,ChatGPT的確可以制作一些簡單的數字游戲,但對于制作3A游戲大作而言,顯然有些捉襟見肘。

Digital Trends的一份新報告詳細介紹了如何使用流行的對話和腳本生成器來創建可玩的PC游戲。報告指出,只需來自用戶的幾個簡單提示,ChatGPT就發明了自己的基于數學的邏輯益智游戲。不僅如此,它還生成了一些簡單的游戲代碼,后來變成了一款令人上癮的免費瀏覽器游戲,已經在網上引起了一些轟動。但是,當被問到是否可以制作出像《最后生還者》(The Last of US)這樣的3A游戲大作時,ChatGPT顯然有些“茫然”,只能夠簡單吐露出一些故事情節,無法為游戲生成代碼。

圖3 ChatGPT自動生成簡單的數字游戲

雖然對于游戲復雜規則的設計、代碼的編寫等工作,在短期內依舊需要依靠人工來解決,但是以ChatGPT為代表的人工智能,已經能夠幫助游戲開發者們生成對話、腳本和其他數字資產,提升游戲開發者的工作效率,幫助游戲開發者們簡單地填充虛擬的游戲空間,縮短游戲制作的周期。

而隨著AIGC技術發展,游戲AI智能體(決策智能)也會隨之不斷迭代升級。正如文章開頭提及的斯坦福和谷歌團隊訓練的AI智能體,其已經能夠基于大模型實現一些簡單的決策,而生成式智能(AIGC)和決策智能的結合,將打開通用人工智能的大門。

可以預見的是,未來AI與游戲的發展勢必會更加緊密的聯系在一起。現實中,已經有越多越多的人們意識到游戲與人工智能的共生關系:2023年3月25日出版的最新一期《經濟學人》刊文,認為游戲在21世紀全球流行文化及國際競爭中扮演重要地位。在系列報道中,《經濟學人》也為AI 技術的革命和普及,將會帶動“用戶自制游戲的興起”,“人工智能技術的發展將允許開發者用簡單的文本、語音指令創建交互式3D模型”,極大降低游戲制作的門檻。Omdia發布的2023年技術趨勢展望報告中,也將“游戲科技(GamesTech)”列為最值得關注的技術趨勢之一,并認為游戲AI將成為2023年游戲開發中最受關注的熱門技術話題。此外,在中國音數協游戲工委、中國游戲產業研究院與多家單位合作推出《游戲科技能力與科技價值研究報告》中,面向游戲與電子通信、硬件制造等領域的行業調研數據顯示,81%的受訪者認同游戲促進了AI技術的發展。

在OpenAI Five之后,包括索尼、騰訊在內的多家科技公司都開始基于游戲訓練AI智能體。前者基于《GT賽車》游戲創新了AI強化學習算法,研究成果登上《Nature》雜志封面;后者基于《王者榮耀》游戲開發出AI開放研究平臺“開悟”,助力構建產學研體系。

回到文章的開頭,OpenAI團隊選擇游戲訓練AI的初心是想要打造出“通用人工智能”。而對于通用人工智能的發展而言,目前以ChatGPT為代表的大語言訓練模型,讓人們窺見到了AGI(通用人工智能)的未來圖景,而以游戲AI為代表的決策智能,以及游戲提供的絕佳AI訓練場,也正在加快AI走向通用的進程。

我們期待未來的AI能夠與游戲在實現“通用人工智能”的道路上攜手共進,為人類社會的發展帶來更多美好的期待。

本文來源于騰訊研究院,作者為王樞,原文標題為《OpenAI成功的背后,鮮為人知的游戲訓練史》

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: