一秒把大象P轉身!清華校友論文引爆AI繪圖圈,Diffusion黯然失色
5月18日,一顆炸彈在AI繪圖圈炸響。
從此,AI可以精準修圖了,哪里不準修哪里,AIGC,已然到達了全新的里程碑!
這篇引爆繪圖圈的核彈級論文,名為「Drag Your GAN」,由MPII、MIT、賓大、谷歌等機構的學者聯合發布。目前已被SIGGRAPH 2023錄用。
(資料圖)
而且因為太過火爆,這個項目一經發布,網頁就經常處于崩潰狀態。
項目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
顧名思義,通過DragGAN,就可以任意拖動圖像了,無論是對象的形狀、布局、姿態、表情、位置、大小,都可以做到精準控制。
只要拖拽動作,確定生成圖像的起點和終點,再根據對象的物理結構,用GAN生成在精細尺度上符合邏輯的圖像,一張挑不出破綻的圖就生成了。
拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對?修!
(簡直就是一個超強版的Photoshop)
輕輕一拖動,就能想把耷拉著的狗耳朵提起來,讓狗狗從站著變成趴下,以及讓狗狗瞬間張嘴微笑。
現在,甲方提出「讓大象轉個身」的要求,終于可以實現了。
所以,廣大修圖師的飯碗是要被端了?
從此,我們正式進入「有圖無真相」時代。
準備好,一大波演示來了
這種DragGAN可控圖像合成方法,具有廣泛的應用場景,只有你想不到,沒有它做不到。
Midjourney、Stable Diffusion、Dalle-E等AI繪圖工具生成的圖像,都可以用DragGAN來微調細節,生成任何想要的效果。
模特的姿勢可以隨意改變,短褲可以變成九分褲,短袖可以變長袖。
湖邊的樹可以瞬間長高,湖里的倒影也跟著一起改變。
原圖中的太陽沒露臉?無所謂,DragGAN會給你造個日出。
貓貓的正臉一下子變側臉,角度精細可調。
甚至連汽車也能一鍵「敞篷」。
不得不說,AI繪圖圈,真的太卷了。上一個工具還沒完全學會呢,下一個革命性產品就又來了。
有了DragGAN的加持,各種AI畫圖工具的「阿喀琉斯之踵」再也不是弱點。
并且,DragGAN在單顆3090顯卡上生成圖像,僅僅需要幾秒鐘。
可以想象,繪圖、動畫、電影、電視劇等領域,都將迎來大地震。
DragGAN看起來像Photoshop的Warp工具,但它的功能實現了核彈級的增強——它讓你不只是在像素周圍簡單地移動,而是使用AI來重新生成底層對象,甚至還能像3D一樣旋轉圖像。
研究者團隊指出,這項工作真正有趣的地方不一定是圖像處理本身,而是用戶界面。
我們早就能用GAN之類的AI工具來生成逼真的圖像,但缺乏足夠的靈活性和精度,無法得到我們想要的確切姿勢。
但DragGAN提供的,絕不是簡單地涂抹和糊化現有像素,而是重新生成主體。
正如研究者所寫:「你的方法可以產生幻覺,就像獅子嘴里的牙齒一樣,并且可以隨著物體的剛性而變形,就像馬腿的彎曲一樣?!?/p>
DragGAN的橫空出世表明,GAN模型開始模型了,或許它會比Diffusion模型(DALLE.2、Stable Diffusion和Midjourney)更具影響力。
此前,Diffusion模型一直在AI繪圖領域大受歡迎,但生成式對抗網絡GAN也引起了人們廣泛的興趣,Ian Goodfellow2017年提出GAN理論后,三年后它再次復興。
DragGAN:圖像處理新時代
在這項工作中,團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點精確「拖動」至目標點。
DragGAN主要包括以下兩個主要組成部分:
1. 基于特征的運動監控,驅動操作點向目標位置移動
2. 一個新的點跟蹤方法,利用區分性的GAN特征持續定位操作點的位置
通過DragGAN,任何人都可以對像素進行精確的控制,進而編輯如動物、汽車、人類、風景等多種類別的姿態、形狀、表情和布局。
由于這些操作在GAN的學習生成圖像流形上進行,因此它們傾向于生成逼真的輸出,即使在富有挑戰性的場景下也是如此,例如被遮擋的內容和變形的圖像。
定性和定量的對比表明,DragGAN在圖像操作和點跟蹤任務中,都明顯優于先前的方法。
拖拽編輯
在DragGAN的加持下,用戶只需要設置幾個操作點(紅點),目標點(藍點),以及可選的表示可移動區域的mask(亮區)。然后,模型就會自動完成后續的圖像生成,
其中,動態監控步驟會讓操作點(紅點)向目標點(藍點)移動,點追蹤步驟則通過更新操作點來追蹤圖像中的對象。此過程會一直持續,直到操作點達到其相應的目標點。
流程
具體來說,團隊通過在生成器的特征圖上的位移修補損失來實現動態監控,并在相同的特征空間中通過最近鄰搜索進行點追蹤。
方法
值得注意的是,用戶可以通過添加mask的方式,來控制需要編輯的區域。
可以看到,當狗的頭部被mask時,在編輯后的圖像中,只有頭部發生了移動,而其他區域則并未發生變化。但如果沒有mask的話,整個狗的身體也會跟著移動。
這也顯示出,基于點的操作通常有多種可能的解決方案,而GAN會傾向于在其從訓練數據中學習的圖像流形中找到最近的解決方案。
因此,mask功能可以幫助減少歧義并保持某些區域固定。
mask的效果
在真實圖像的編輯中,團隊應用GAN反轉將其映射到StyleGAN的潛在空間,然后分別編輯姿勢、頭發、形狀和表情。
真實圖像的處理
到目前為止,團隊展示的都是基于「分布內」的編輯,也就是使用訓練數據集內的圖像來實現編輯。
但DragGAN實際上具有強大的泛化能力,可以創建出超出訓練圖像分布的圖像。比如,一個張得巨大的嘴,以及一個被極限放大的車輪。
在某些情況下,用戶可能希望始終保持圖像在訓練分布中,并防止這種超出分布的情況發生。實現這一目標的方法可以是對潛在代碼添加額外的正則化,但這并不是本文討論的重點。
泛化能力
比較分析
首先,與UserControllableLT相比,DragGAN能夠編輯從輸入圖像中檢測到的特征點,并使其與從目標圖像中檢測到的特征點相匹配,而且誤差很小。
從下圖中可以看出,DragGAN正確地張開了照片中人物的嘴,并調整了下巴的形狀來匹配目標的臉型,而UserControllableLT未能做到這一點。
臉部特征點編輯
在DragGAN與RAFT、PIPs和無追蹤的定性比較中,可以看得,DragGAN可以比基線更準確地跟蹤操作點,進而能夠產生更精確的編輯。
定性比較
而在移動操作點(紅點)到目標點(藍點)的任務上,定性比較的結果顯示,DragGAN在各種數據集上都取得了比UserControllableLT更加自然和優秀的效果。
定性比較
如表1所示,在不同的點數下,DragGAN都明顯優于UserControllableLT。而且根據FID的得分,DragGAN還保留了更好的圖像質量。
由于具有更強的跟蹤能力,DragGAN還實現了比RAFT和PIPs更精確的操縱。正如FID分數所顯示的,如果跟蹤不準確的話,很可能會造成編輯過度,從而降低圖像質量。
雖然UserControllableLT的速度更快,但DragGAN在很大程度上提升了這項任務的上限,在保持相對較快的運行時間的同時,實現了更靠譜的編輯。
定量分析
結果討論
DragGAN是一種基于點的交互式圖像編輯方法,該方法利用預訓練的GAN來合成圖像。其中,這些合成圖像不僅精確地遵循了用戶的輸入,而且還能保持在真實圖像的流形上。
此外,與之前的方法相比,團隊提出的DragGAN還是一個通用框架,并不依賴于特定領域的建模或輔助網絡。
這是通過兩個新穎的組件來實現的,它們都是利用GAN的中間特征圖的辨別質量,來生成像素精確的圖像形變和交互性能:
1. 一個優化潛在代碼的方法,逐步將多個操作點移向目標位置
2. 一個點追蹤程序,真實地追蹤操作點的軌跡
總結來說,全新的DragGAN在基于GAN的編輯方面要優于現有的技術,并為使用生成式先驗的強大圖像編輯開辟了新的方向。
至于未來的工作,團隊計劃將基于點的編輯擴展到3D生成模型。
模型局限
盡管具有一定的泛化能力,但DragGAN的編輯質量仍受訓練數據多樣性的影響。
如下圖(a)所示,創建一個訓練分布外的人體姿勢,可能會生成錯誤的圖像
此外,如圖(b)(c)所示,在無紋理區域的操作點在追蹤時有時會有更多的漂移。
因此,團隊建議盡量去選擇紋理豐富的操作點。
作者介紹
論文一作Xingang Pan,即將上任南洋理工大學計算機科學與工程學院MMLab@NTU的助理教授(2023年6月)。
目前,他是馬克斯·普朗克計算機科學研究所的博士后研究員,由Christian Theobalt教授指導。
在此之前,他于2016年在清華大學獲得學士學位,并2021年在香港中文大學多媒體實驗室獲得博士學位,導師是湯曉鷗教授。
Lingjie Liu
Lingjie Liu是賓夕法尼亞大學計算機和信息科學系的Aravind K. Joshi助理教授,負責賓大計算機圖形實驗室,同時也是通用機器人、自動化、傳感和感知(GRASP)實驗室的成員。
在此之前,她是馬克斯·普朗克計算機科學研究所的Lise Meitner博士后研究人員。并于2019年在香港大學獲得博士學位。
參考資料:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
作者:新智元,來源:新智元,原文標題:《GAN逆襲歸來!清華校友論文引爆AI繪圖圈,一秒把大象P轉身,Diffusion黯然失色》
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: