玉林实硕医疗科技有限公司

賽道Hyper | 自動駕駛通用大模型:UniAD技術遠圖

北美時間6月21日,在CVPR(國際計算機視覺和模式識別頂級會議)上,出現該會議有史以來首篇以自動駕駛為主題的最佳論文。 

這有點像ChatGPT應用,底層技術源頭Transformer模型,來自Google在2017年的神經信息處理系統大會上發表的一篇論文,在最終成了如今AGI(通用人工智能)技術的應用突破口,在CVPR上獲得“最佳”桂冠的這篇論文,也可能會成為未來自動高階駕駛的技術應用推進器。 


(資料圖片)

對高階自動駕駛技術的意義在于,首次提出了感知決策一體化的自動駕駛通用大模型——被稱為“UniAD”——開創了以全局任務為目標的自動駕駛大模型架構先河,為自動駕駛技術與產業發展提出了全新的方向和空間。 

40年來首篇自駕主題最佳 

CVPR,由IEEE舉辦的計算機視覺和模式識別領域的專業技術會議,英文全稱“Conference on Computer Vision and Pattern Recognition”,是AI領域最有學術影響力頂級技術會議中的一個,每年舉辦一次。 

在2023年這屆會議上,共有9155篇技術論文參與“最佳”角逐。 

最終的結果,出現兩篇“最佳論文”,另外一篇是最佳學生論文。也就是在9155篇論文中,總共有3篇獲得“最佳”獎(Best Paper Award)的技術論文。 

其中,有1篇由上海AI實驗室、武漢大學和商湯科技三方聯合研究的主題最佳論文,即“Planning-oriented Autonomous Driving”(以路徑規劃為導向的自動駕駛),是CVPR從1983年開始舉辦40年以來,第一篇以自動駕駛為主題的最佳論文;同時也是該會議最近10年以來,作者第一單位來自中國機構的最佳。 

值得一提的是,這篇最佳論文的作者方之一,商湯科技,在本屆CVPR中,另有1篇最佳論文候選、7篇Highlight論文和54篇被收錄論文。業內人士告訴華爾街見聞,上海AI實驗室參與這篇論文撰寫的核心人士,均有商湯科技從業背景。 

論文提出的“感知決策一體化的自動駕駛通用大模型”,被稱為“UniAD”,其核心技術價值是建立了一套端到端感知決策一體框架,融合多任務聯合學習新范式,可實現更有效的信息交換、協調感知預測決策,進而能進一步提升路徑規劃能力。這也是該文獲得Best Paper Award稱號的理由。 

相當多的自動駕駛業內人士在談及高階自動駕駛技術時,均有類似觀點,即“高階自動駕駛在技術上并非難以逾越或不可解決,但法規難以同步”。這話除了字面意思,另外還隱含著技術涵義,也就是高階自動駕駛在行駛時,與其他車輛或行人,還難以形成高效交互。這在本質上屬于多任務應用需求范疇。 

這層涵義,其隱含的意思,也就是承認高階自動駕駛的技術,仍未實現有效突破。此前,大部分技術均著眼于解決模塊化問題,比如提升雷達掃描范圍和精度、域控制器性能或自動駕駛算力芯片性能等等。這些努力都很難兼顧“多任務”和“高性能”應用需求,尤其是前者。 

UniAD(自動駕駛通用算法框架:Unified Autonomous Driving)由4個基于Transformer解碼器的感知預測模塊以及1個規劃模塊組成,整體上是一套自動駕駛通用模型框架。 

UniAD首次將感知、預測和規劃等3大類主任務,以及包括目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃在內的6小類子任務,整合到統一的基于Transformer的端到端網絡框架內,成為一個全棧關鍵任務駕駛的通用模型。 

在NuScenes真實場景數據集框架內,UniAD所有相關任務都達到SoTA(最佳性能:State of The Art),尤其是預測和規劃效果遠超其他模型。 

簡單來說,就解決“多任務”問題,通過多個Transformer模塊,UniAD實現了多任務層級式結合。對不同任務間的信息,也能實現全角度、多方位交互。通過多組查詢向量,UniAD達成了物體與地圖的建模,隨之將預測結果傳遞至規劃模塊,用于規劃安全路徑。 

應用這套框架的自動駕駛全棧解決方案,能提升多目標跟蹤準確率提升20%,車道線預測準確率提升30%,預測運動位移和規劃的誤差分別降低38%和28%。 

強在哪?能搞定多任務 

若觀察該文的獲獎理由,不難發現,解決“多任務”需求,UniAD從規劃入手,將全棧關鍵任務從端到端,融合進一個統一的框架內。 

應當承認,高階自動駕駛技術應用,在此前并非全是模塊化解決方案,也有相當多的國際公司做了很多框架模式。 

比如,美國Waymo和Cruise等自駕公司采用“獨立并行模型” 架構設計,美國特斯拉和中國小鵬汽車等,提出“多任務共享網絡”架構模式,美國英偉達、德國馬克斯普朗克研究所(MPI)和英國Wayve自駕公司等,用了“直接”端到端方案。 

UniAD首次將全棧關鍵任務端到端地包含在一個統一的網絡架構中,提出了全新的“全??煽亍倍说蕉朔桨?,通過系統聯合調優,取得比此前所有架構都要更優的應用效果。 

從技術角度看,UniAD用了多組查詢向量(Query)串聯起多個任務,實現網絡信息傳遞,隨后將所有融合的信息傳至最終的規劃模塊。同時,每個模塊的Transformer架構,通過注意力機制,可有效實現對查詢向量的交互。 

在實際應用層面,UniAD能顯著節省計算資源,避免不同任務模塊的累積誤差(此前單一模塊化解決方案在多次運行后形成難以解決的冗余誤差問題)。通過UniAD證明,一旦采用能兼顧“多任務”和“高性能”全棧可控端到端解決方案的框架,前序多任務能與后繼任務相互支持,最終提升了駕駛安全的體驗度。 

事實上,大多數端到端自動駕駛解決方案,也都關注了感知、決策和規劃三部分。但是,推進這三部分形成的多任務在發揮實際作用時,存在較大差異,沒有誰取設計一個統一框架,將這些滿足不同應用需求的任務,融合進一個整體。 

為何UniAD能解決多任務融合問題? 

研究團隊采用了多組查詢向量的全Transformer模型,同時,團隊還立足于“規劃”目標做全棧設計。 

舉個實際應用例子,在車輛于晴天直行時,UniAD能感知左前方等待的黑色車輛,預測其未來軌跡(即將左轉駛入自車的車道),并立即減速實現避讓,待黑色駛離后再恢復正常速度直行。 

若處于雨天轉彎場景,在視野干擾較大且場景復雜的十字路口,UniAD能通過分割模塊生成十字路口的整體道路結構,做到大幅度左轉規劃。 

UniAD號稱自動駕駛通用大模型,這個應該如何理解? 

這個框架奠定了多任務端到端自動駕駛大模型的基礎,具有很強的可擴展性。通過增加模型參數與擴充海量數據雙輪驅動,可進一步實現自動駕駛大模型,賦能行業應用與相關自駕產品落地。 

這段話是上海人工智能(AI)實驗室李弘揚博士的解釋。 

華爾街見聞注意到,UniAD解決多任務應用需求的能力,與商湯科技在今年3月14日發布的多模態多任務通用大模型“書生(INTERN)2.5”很可能有內在聯系。 

“書生(INTERN)2.5”,商湯科技稱之“有良好的圖文跨模態開放任務處理能力,可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持”。其初代版本,由商湯科技、上海人工智能實驗室、清華大學、香港中文大學和上海交通大學,于2021年11月首次共同發布,并持續聯合研發。 

商湯科技稱,書生(INTERN)2.5致力于多模態多任務通用模型的構建,可接收處理各種不同模態的輸入,并采用統一的模型架構和參數處理各種不同的任務。

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: