Transformer全新里程碑!誕生6年,開山之作被引近8萬,沒奪下NeurIPS最佳論文,卻徹底改變AI界
2017年6月12日,Attention is All You Need,一聲炸雷,大名鼎鼎的Transformer橫空出世。
它的出現,不僅讓NLP變了天,成為自然語言領域的主流模型,還成功跨界CV,給AI界帶來了意外的驚喜。
(資料圖片僅供參考)
到今天為止,Transformer誕生6周年。而這篇論文被引數高達77926。
英偉達科學家Jim Fan對這篇蓋世之作做了深度總結:
1. Transformer并沒有發明注意力,而是將其推向極致。
第一篇注意力論文是在3年前(2014年)發表的。
這篇論文來自Yoshua Bengio的實驗室,而標題并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。
它是「RNN+上下文向量」(即注意力)的組合。
或許很多人都沒有聽說過這篇論文,但它是NLP中最偉大的里程碑之一,已經被引用了29K次(相比之下,Transformer為77K)。
2. Transformer和最初的注意力論文,都沒有談到通用序列計算機。
相反,兩者都為了解決一個狹隘而具體的問題:機器翻譯。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻譯。
3. Transformer發表在2017年的NeurIPS上,這是全球頂級的人工智能會議之一。然而,它甚至沒有獲得Oral演講,更不用說獲獎了。
那一年的NeurIPS上有3篇最佳論文。截止到今天,它們加起來有529次引用。
Transformer這一經典之作卻在NeurIPS 2017沒有引起很多人的關注。
對此,Jim Fan認為,在一項出色的工作變得有影響力之前,很難讓人們認可它。
我不會責怪NeurIPS委員會——獲獎論文仍然是一流的,但影響力沒有那么大。一個反例是ResNet。
何凱明等人在CVPR 2016年獲得了最佳論文。這篇論文當之無愧,得到了正確的認可。
2017年,該領域聰明的人中,很少有人能夠預測到今天LLM革命性的規模。就像20世紀80年代一樣,很少有人能預見自2012年以來深度學習的海嘯。
OpenAI科學家Andrej Karpathy對Jim Fan第2點總結頗感興趣,并表示,
介紹注意力的論文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的論文受到的關注要少1000倍。而且從歷史上看,這兩篇論文都非常普通,但有趣的是恰好都是為機器翻譯而開發的。
你只需要注意力!
Transformer誕生之前,AI圈的人在自然語言處理中大都采用基于RNN(循環神經網絡)的編碼器-解碼器(Encoder-Decoder)結構來完成序列翻譯。
然而,RNN及其衍生的網絡最致命的缺點就是慢。關鍵問題就在于前后隱藏狀態的依賴性,無法實現并行。
Transformer的現世可謂是如日中天,讓許多研究人員開啟了追星之旅。
2017年,8位谷歌研究人員發表了Attention is All You Need??梢哉f,這篇論文是NLP領域的顛覆者。
論文地址:https://arxiv.org/pdf/1706.03762.pdf
它完全摒棄了遞歸結構,依賴注意力機制,挖掘輸入和輸出之間的關系,進而實現了并行計算。
甚至,有人發問「有了Transformer框架后是不是RNN完全可以廢棄了?」
JimFan所稱Transformer當初的設計是為了解決翻譯問題,毋庸置疑。
谷歌當年發的博客,便闡述了Transformer是一種語言理解的新型神經網絡架構。
文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
具體來講,Transformer由四部分組成:輸入、編碼器、解碼器,以及輸出。
輸入字符首先通過Embedding轉為向量,并加入位置編碼(Positional Encoding)來添加位置信息。
然后,通過使用多頭自注意力和前饋神經網絡的「編碼器」和「解碼器」來提取特征,最后輸出結果。
如下圖所示,谷歌給出了Transformer如何用在機器翻譯中的例子。
機器翻譯的神經網絡通常包含一個編碼器,在讀取完句子后生成一個表征。空心圓代表著Transformer為每個單詞生成的初始表征。
然后,利用自注意力,從所有其他的詞中聚合信息,在整個上下文中為每個詞產生一個新表征,由實心圓表示。
接著,將這個步驟對所有單詞并行重復多次,依次生成新的表征。
同樣,解碼器的過程與之類似,但每次從左到右生成一個詞。它不僅關注其他先前生成的單詞,還關注編碼器生成的最終表征。
2019年,谷歌還專門為其申請了專利。
自此,在自然語言處理中,Transformer逆襲之路頗有王者之風。
歸宗溯源,現在各類層出不窮的GPT(Generative Pre-trained Transformer),都起源于這篇17年的論文。
然而,Transformer燃爆的不僅是NLP學術圈。
萬能Transformer:從NLP跨到CV
2017年的谷歌博客中,研究人員曾對Transformer未來應用潛力進行了暢享:
不僅涉及自然語言,還涉及非常不同的輸入和輸出,如圖像和視頻。
沒錯,在NLP領域掀起巨浪后,Transformer又來「踢館」計算機視覺領域。甚至,當時許多人狂呼Transformer又攻下一城。
自2012年以來,CNN已經成為視覺任務的首選架構。
隨著越來越高效的結構出現,使用Transformer來完成CV任務成為了一個新的研究方向,能夠降低結構的復雜性,探索可擴展性和訓練效率。
2020年10月,谷歌提出的Vision Transformer (ViT),不用卷積神經網絡(CNN),可以直接用Transformer對圖像進行分類。
值得一提的是,ViT性能表現出色,在計算資源減少4倍的情況下,超過最先進的CNN。
緊接著,2021年,OpenAI連仍兩顆炸彈,發布了基于Transformer打造的DALL-E,還有CLIP。
這兩個模型借助Transformer實現了很好的效果。DALL-E能夠根據文字輸出穩定的圖像。而CLIP能夠實現圖像與文本的分類。
再到后來的DALL-E進化版DALL-E 2,還有Stable Diffusion,同樣基于Transformer架構,再次顛覆了AI繪畫。
以下,便是基于Transformer誕生的模型的整條時間線。
由此可見,Transformer是有多么地能打。
2021年,當時就連谷歌的研究人員David Ha表示,Transformers是新的LSTMs。
而他曾在Transformer誕生之前,還稱LSTM就像神經網絡中的AK 47。無論我們如何努力用新的東西來取代它,它仍然會在50年后被使用。
Transformer僅用4年的時間,打破了這一預言。
新硅谷「七叛徒」
如今,6年過去了,曾經聯手打造出谷歌最強Transformer的「變形金剛們」怎么樣了?
Jakob Uszkoreit被公認是Transformer架構的主要貢獻者。
他在2021年中離開了Google,并共同創立了Inceptive Labs,致力于使用神經網絡設計mRNA。
到目前為止,他們已經籌集了2000萬美元,并且團隊規模也超過了20人。
Ashish Vaswani在2021年底離開Google,創立了AdeptAILabs。
可以說,AdeptAILabs正處在高速發展的階段。
目前,公司不僅已經籌集了4.15億美元,而且也估值超過了10億美元。
此外,團隊規模也剛剛超過了40人。
然而,Ashish卻在幾個月前離開了Adept。
在Transformers論文中,Niki Parmar是唯一的女性作者。
她在2021年底離開Google,并和剛剛提到的Ashish Vaswani一起,創立了AdeptAILabs。
不過,Niki在幾個月前也離開了Adept。
Noam Shazeer在Google工作了20年后,于2021年底離開了Google。
隨后,他便立刻與自己的朋友Dan Abitbol一起,創立了Character AI。
雖然公司只有大約20名員工,但效率卻相當之高。
目前,他們已經籌集了近2億美元,并即將躋身獨角獸的行列。
Aidan Gomez在2019年9月離開了Google Brain,創立了CohereAI。
經過3年的穩定發展后,公司依然正在擴大規?!狢ohere的員工數量最近超過了180名。
與此同時,公司籌集到的資金也即將突破4億美元大關。
Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中離開了Google,加入了OpenAI。
Illia Polosukhin在2017年2月離開了Google,于2017年6月創立了NEAR Protocol。
目前,NEAR估值約為20億美元。
與此同時,公司已經籌集了約3.75億美元,并進行了大量的二次融資。
現在,只有Llion Jones還在谷歌工作。
在論文的貢獻方面,他風趣地調侃道:「自己最大的意義在于——起標題?!?/p>網友熱評
走到現在,回看Transformer,還是會引發不少網友的思考。
AI中的開創性論文。
馬庫斯表示,這有點像波特蘭開拓者隊對邁克爾·喬丹的放棄。
這件事說明了,即使在這樣的一級研究水平上,也很難預測哪篇論文會在該領域產生何種程度的影響。
這個故事告訴我們,一篇研究文章的真正價值是以一種長期的方式體現出來的。
哇,時間過得真快!令人驚訝的是,這個模型突破了注意力的極限,徹底改變了NLP。
在我攻讀博士期間,我的導師 @WenmeiHwu 總是教育我們,最有影響力的論文永遠不會獲得最佳論文獎或任何認可,但隨著時間的推移,它們最終會改變世界。我們不應該為獎項而奮斗,而應該專注于有影響力的研究!
本文作者:桃子、好困,來源:新智元,原文標題:《Transformer全新里程碑!誕生6年,開山之作被引近8萬,沒奪下NeurIPS最佳論文,卻徹底改變AI界》
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: