玉林实硕医疗科技有限公司

【熱聞】“具身智能”是個啥?

先解釋概念


(資料圖片僅供參考)

Embodied AI = Embodied Intelligence = 具象AI = 具身智能:有身體并支持物理交互的智能體,如家用服務機器人、無人車等。——?“身體力行”

Internet AI = Disembodied AI = 非具身智能:沒有物理身體,只能被動接受人類采集、制作好的數據 。——?“紙上談兵”或者說 “運籌帷幄”

機器人,是人工智能的最終解決方案。

具身智能機器人:首先,要能夠聽懂人類語言,然后,分解任務,規劃子任務,移動中識別物體,與環境交互,最終完成相應任務。

具體點說,像人一樣能與環境交互感知,自主規劃、決策、行動、執行能力的機器人/仿真人(指虛擬環境中)是AI的終極形態,我們暫且稱之為“具身智能機器人”。它的實現包含了人工智能領域內諸多的技術,例如計算機視覺、自然語言處理、機器人學等。要想全面理解認識人工智能是很困難的。

(一)人工智能分支多 目前走向融合

全面認識人工智能之所以困難,是有客觀原因的。

1、人工智能是一個非常廣泛的領域。當前人工智能涵蓋很多大的學科,我把它們歸納為六個:

(1)計算機視覺(暫且把模式識別,圖像處理等問題歸入其中)、

(2)自然語言理解與交流(暫且把語音識別、合成歸入其中,包括對話)、

(3)認知與推理(包含各種物理和社會常識)、

(4)機器人學(機械、控制、設計、運動規劃、任務規劃等)、

(5)博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會融合等議題)。

(6)機器學習(各種統計的建模、分析工具和計算的方法),

領域各有大模型,迭代很快,gpt 5甚至能摸到NLP天花板!CV剛剛開始,但目前它們正在交叉發展,走向統一的過程中。

算法層的進步如日中天!

但具有物理實體、能夠與真實世界進行多模態交互,像人類一樣感知和理解環境,并通過自主學習物理體沒有出現!

具身指的不僅僅是具有物理身體,而且是具有與人一樣的身體體驗的能力。如圖中的貓一樣,主動貓是具身的智能,它可以在環境中自由行動,從而學習行走的能力。被動貓只能被動的觀察世界,最終失去了行走能力。

前者有點像我們現在給機器喂很多數據,屬于第三人稱的智能,比如我們給機器很多盒子,并且標注這就是盒子,然后機器就會覺得這種 pattern 是盒子。但其實,人類是怎么知道這是盒子的?是通過體驗才知道的。

第一類就像我們給AI模型喂很多數據,這些數據是人類整理,打過標簽的。我們將其定義為Internet AI,與Embodied AI相對應。

谷歌公司 Everyday Robot 的SayCan已經將機器人和對話模型結合到一起[6],能夠讓機器人在大型語言模型的幫助下,完成一個包含 16 個步驟的長任務。UC 伯克利的 LM Nav 用三個大模型(視覺導航模型 ViNG、大型語言模型 GPT-3、視覺語言模型 CLIP)教會了機器人在不看地圖的情況下按照語言指令到達目的地。

(二)具象AI和非具象 AI代際變遷

Internet AI(Disembodied AI)和Embodied AI的辨析

旁觀型標簽學習方式 v.s. 實踐性概念學習方法

Internet AI從互聯網收集到的圖像、視頻或文本數據集中學習,這些數據集往往制作精良,其與真實世界脫節、難以泛化和遷移。1)數據到標簽的映射。2)無法在真實世界進行體驗學習。3)無法在真實世界做出影響。

Embodied AI通過與環境的互動,雖然以第一視角得到的數據不夠穩定,但這種類似于人類的自我中心感知中學習,從而從視覺、語言和推理到一個人工具象(Artificial Embodiment),可以幫助解決更多真實問題。

過去50年,非具身智能就占據了絕對的優勢。不需要物理交互、不考慮具體形態、專注抽象算法的開發這一系列有利條件使得非具身智能得以迅速地發展。今天在算力和數據的支持下,深度學習這一強有力的工具大大推進了人工智能研究,非具身智能已經如圖靈所愿、近乎完美地解決了下棋、預測蛋白質結構等抽象的獨立任務?;ヂ摼W上充沛的圖片和語義標注也使得一系列視覺問題取得了突出的成果。

然而這樣的智能顯然是有局限的。非具身智能沒有自己的眼睛,因此只能被動地接受人類已經采集好的數據。非具身智能沒有自己的四肢等執行器官,無法執行任何物理任務,也缺乏相關的任務經驗。即使是可以辨識萬物的視覺大模型也不知道如何倒一杯水,而缺乏身體力行的過程,使得非具身智能體永遠也無法理解事物在物理交互中真實的意義。

具身智能具有支持感覺和運動的物理身體,可以進行主動式感知,也可以執行物理任務,沒有非具身智能的諸多局限性。更重要的是,具身智能強調“感知—行動回路”(perception-action loop)的重要性,即感受世界、對世界進行建模、進而采取行動、進行驗證并調整模型的過程。這一過程正是“紙上得來終覺淺,絕知此事要躬行”,與我們人類的學習和認知過程一致。

麻省學者Rodney Brooks 認為智能是在與環境的交互作用中表現出來的,因此是行為產生了智能。其基本觀點是讓機器人到環境中去,進行物理交互,從而積累和發展初級的智能。他因此將研究的重心放在了具身智能,研究如何讓機器人移動和適應環境,于 1986年誕生了第一個基于感知行為模式的輪式機器人。

該機器人不需要中樞控制,實現了避讓、前進和平衡等功能。Rodney Brooks 也成為了人工智能和機器人學中行為主義的代表性人物。今天對如何發展真正的智能仍然是一個開放的問題,而具身智能作為符合人類認知規律的一種發展途徑也受到了廣泛的討論。

(三)具象AI技術條件成熟

時機成熟:各路大模型成熟

計算機視覺給具身智能提供了處理視覺信號的能力;

計算機圖形學開發的物理仿真環境給具身智能提供了真實物理世界的替代,大大加快了學習的速度并降低了成本;

自然語言給具身智能帶來了與人類交流、從自然文本中學習的可能;

認知科學進一步幫助具身智能體理解人類、構建認知和價值。

具象AI實施方案——PIE 方案

具身智能有哪些模塊是一定跑不掉的?我們認為有 3 個模塊 —— 具身感知(Perception)、具身想象(Imagination)和具身執行(Execution)。

1、全概念感知

首先,我們具身智能的感知應該是什么樣的?跟之前計算機視覺的感知有什么不一樣?我們覺得它應該是一個全感知。全感知的意思就是,我們能夠知道我們所操作的這個世界模型(world model)的各種各樣的知識,跟操作相關的知識,包括外形、結構、語義,以及 48 個真實世界關節體類別等等。

2、具身交互感知

具身交互感知是什么呢?我們作交互的時候,其實除了視覺,還有觸覺,還有各種內容交互的感覺。這些感覺其實也會帶來新的感知。就像我們剛才講的提一個桶或者打開微波爐,我們其實沒辦法從視覺上知道大概需要多少牛的力,所以其實很多時候我們對這個模型的估計是通過交互來獲得的。

3、具身想象

感知的東西都有了之后,你肯定會在腦子里想我該怎么去做,這是一個具身想象的過程。我們做了一個名為 RFUniverse 的仿真引擎,這個仿真引擎支持 7 種物體(比如關節可移動的、柔性的、透明的、流體的……)、87 種原子操作的仿真。

這些操作相當于我們把物體錄入之后,我們在仿真引擎里想象它大概應該怎么做。跟以往不同的一點是,我們已經有了這些物體的知識。它也支持強化學習、VR。這個項目也已經開源。

4、具身執行

接下來是一個更難的事情:我們想象完了之后怎么去做?大家覺得想完之后去做是不是挺簡單的?其實不是,因為你的想象和真實操作是有差距的。而且我們又希望這個操作能自適應于各種事件的變化,這個難度就很大。

我們希望建一個元操作庫,這樣我們就能調用各種元操作來解決這個問題。在《Mother of all Manipulations:Grasping》這項工作中,我們從 Grasping 做起。給定一個點云,這個點云對應的動作會去抓取,你怎么去產生那些 grasp pose?

(四)大廠進展

1、2023年3月谷歌和柏林工業大學的團隊重磅推出了史上最大的視覺-語言模型——PaLM-E,參數量高達5620億(GPT-3的參數量為1750億)。具體來說, PaLM-E-562B 集成了參數量 540B 的 PaLM 和參數量 22B 的視覺 Transformer(ViT),作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執行各種復雜的機器人指令而無需重新訓練。谷歌研究人員計劃探索PaLM-E在現實世界場景中的更多應用,例如家庭自動化或工業機器人。他們希望PaLM-E能夠激發更多關于多模態推理和具身AI的研究。

2、2023年4月?微軟團隊在探索如何將 OpenAI研發的ChatGPT擴展到機器人領域[8],從而讓我們用語言直觀控制如機械臂、無人機、家庭輔助機器人等多個平臺。研究人員展示了多個 ChatGPT 解決機器人難題的示例,以及在操作、空中和導航領域的復雜機器人部署。

3、2023年5月英偉達創始人兼首席執行官黃仁勛在ITF World 2023半導體大會上,認為“芯片制造是英偉達加速和AI計算的理想應用”;“人工智能下一個浪潮將是"具身智能",他也公布了Nvidia VIMA,這是一個多模態具身人工智能系統,能夠在視覺文本提示的指導下執行復雜的任務。

Huang 描述了一種新型人工智能——“具身人工智能”,即能夠理解、推理并與物理世界互動的智能系統。

他說,例子包括機器人技術、自動駕駛汽車,甚至是聊天機器人,它們更聰明,因為它們了解物理世界。Huang 介紹了 NVIDIA VIMA,一種多模態人工智能。VIMA 可以根據視覺文本提示執行任務,例如“重新排列對象以匹配此場景”。它可以學習概念并采取相應的行動,例如“這是一個小部件”、“那是一個東西”然后“把這個小部件放在那個東西里”。VIMA 在 NVIDIA AI 上運行,其數字雙胞胎在3D 開發和模擬平臺NVIDIA Omniverse中運行。Huang 說,了解物理學的人工智能可以學習模仿物理學并做出符合物理定律的預測。? ?

部分數據來源上海交通大學教授盧策吾在機器之心 AI 科技年會上,發表了主題演講 ——《具身智能》? 。

本文來源:?錦緞,原文標題:《“具身智能”是個啥?

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: