揭秘Transformer創始八子:聚是一團火,散是滿天星
Transformer創始八子深度揭秘:陳舊的身軀留不住年輕的心。
誰曾想過,引發人工智能革命的突破竟源自一個改進機器翻譯的想法?
智東西8月21日消息,據英國《金融時報》報道,被稱為“ChatGPT奠基之作”的著名架構Transformer的八位作者均已離開谷歌。Transformer的發布如同人工智能領域的“宇宙大爆炸”。八位研究人員都看到了人工智能領域的新希望,相繼選擇離開谷歌,各自創立企業或加入新的團隊以實現自己的抱負。
(相關資料圖)
據悉,八位作者的初始想法只是想要改進谷歌的機器翻譯,他們希望讓機器通讀整個句子,分析其所有部分,而不是單個單詞逐個翻譯。這一想法經過他們的討論與碰撞后,成為“Transformer”架構的概念起點——“自我注意力(self-attention)”。
在這一基礎上,八位作者結合各自專長,于2017年12月發布論文“Attention Is All You Need(你所需要的是注意力)”。這篇論文所描述的,就是“Transformer”架構。
身處人工智能浪潮之中,我們再度回看“宇宙大爆炸”的瞬間,可以發現,與科學發現中的諸多突破性進展一樣,引發人工智能革命的突破性進展也湊齊了天時地利人和。
在英國《金融時報》萬字揭秘中,全文回顧了Transformer架構的前世今生、八位作者陸續離開谷歌的緣由以及他們如今在人工智能領域的成就等等,我們將帶你一文看盡。
01.
Transformer創始八子:
人均身價百萬美元起
在詳細講述Transformer架構的前世今生之前,我們可以先來認識一下這八位作者,他們分別是Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser和Aidan Gomez。
▲圖為Ashish Vaswani(左)和Niki Parmar(右),來源:金融時報
論文一作Ashish Vaswani(左)于2014年在南加州大學獲得博士學位,并于2016年作為研究科學家加入谷歌大腦團隊。2022年4月,他與團隊8人之一Niki Parmar共同創辦了Adept AI,但兩人均于12月離開該公司,并共同創立了另一家人工智能初創公司Essential AI。
Niki Parmar(右)來自印度西部浦那。在加入谷歌擔任軟件工程師之前,Parmar也曾就讀于南加州大學。她在谷歌大腦團隊工作了四年,之后與Ashish Vaswani共同創立了Adept AI和Essential AI。
Essential AI的主營業務是為企業構建軟件,便于企業使用大型語言模型。今年5月,Essential Al獲得了由OpenAI投資者“Thrive Capital”領投的800萬美元(約合人民幣5858萬元)融資。
▲圖為Jakob Uszkoreit(左)和Illia Polosukhin(右),來源:金融時報
Jakob Uszkoreit(左)曾在柏林學習。2008年至2021年,Uszkoreit在谷歌工作。Uszkoreit于2021年離開谷歌,并與他人共同創立Inceptive。該公司主營業務為人工智能生命科學,致力于使用神經網絡和高通量實驗來設計下一代RNA分子。
Illia Polosukhin(右)曾在烏克蘭哈爾科夫學習。Polosukhin于2014年加入谷歌,他是八人團隊中最早離開的人之一,于2017年同他人共同創立了區塊鏈公司NEAR Protocol。
Polosukhin曾任谷歌深度學習小組項目主管,帶隊負責核心搜索算法業務近10年,也是谷歌TensorFlow人工智能開源項目的主要代碼貢獻者。
他創立的區塊鏈公司NEAR Protocol目前估值約為20億美元(約合人民幣146億元),曾先后吸引包括a16z、MultiCoin Capital、Metastable、Coinbase Ventures等區塊鏈領域的著名投資機構。
▲圖為Noam Shazeer(左)和Llion Jones(右),來源:金融時報
Noam Shazeer(左)曾于2000年至2009年間和2012年至2021年期間就職于谷歌。2021年,Shazeer離開谷歌并與前谷歌工程師Daniel De Freitas共同創立Character.AI,致力于開發生成式人工智能聊天機器人。今年三月,Character.AI宣布完成1.5億美元(約合人民幣10.98億元)融資,估值達10億美元(約合人民幣73.23億元)。
Llion Jones(右)本碩畢業于伯明翰大學,曾工作于Delcam、YouTube。他于2012年加入谷歌,擔任軟件工程師。直到本月,他表示自己離開谷歌,并于日本創辦人工智能初創企業sakana.ai。
▲圖為Lukasz Kaiser(左)和Aidan Gomez(右),來源:金融時報
Lukasz Kaiser(左)曾在波蘭和德國學習,曾任法國國家科學研究中心研究員。他于2013年加入谷歌。2021年,他離開谷歌,成為OpenAI的研究員。
Aidan Gomez(右)畢業于加拿大多倫多大學,Transformer論文發表時,他還是谷歌大腦團隊的實習生。他是八人團隊中第二個離開谷歌的人。
2019年,他與他人共同創立了Cohere,這是一家總部位于多倫多的初創公司,該公司專注于提供NLP模型,幫助企業改善人機交互。今年6月,Cohere拿到了由英偉達等參投的2.5億美元融資,當前估值已達20億美元。
02.
AI的“宇宙起源”:
Transformer
2017年初,兩位谷歌研究科學家Ashish Vaswani和Jakob Uszkoreit在谷歌園區中討論如何改進機器翻譯(谷歌翻譯背后的人工智能技術)的新想法。
在那時,Illia Polosukhin正與其他人工智能研究員合作研究一個他們稱之為“自我注意力(self-attention)”的想法。自我注意力的概念是讓機器通讀整個句子,分析其所有部分,而不是單個單詞逐個翻譯。然后,機器就可以獲得更通順的上下文,并生成翻譯。他認為,這一概念可以從根本上提升計算機對語言的理解能力。
當時,三位科學家認為這一方法將比現有方法更快、更準確。經過嘗試翻譯了一些英德翻譯的文本后,他們發現自我注意力的概念是有效的。
在走廊里聊天時,Uszkoreit和Vaswani的想法也谷歌老員工Noam Shazeer無意中聽到。
Shazeer曾經協助構建谷歌搜索“Did You Mean?”的拼寫檢查功能,他還參與了其他幾項人工智能創新工作,但他對現有的語言生成方法感到失望,并在尋找新思路。
因此,當他聽到同事談論“自我注意力”這個想法時,他決定加入并提供幫助。Shazeer說:“我支持你們,讓我們一起來做吧,這將使所有的人工智能研究員受益匪淺。”
這次偶然的談話促成了八人團隊為期數月的合作。他們研究了一種處理語言的架構,也就是“Transformer”。最終,八人團隊于2017年發布了一篇簡短的論文,論文標題簡潔有力:“Attention Is All You Need(你所需要的是注意力)”。這篇論文描述了“Transformer”架構。
Llion Jones說這個標題是對披頭士樂隊歌曲“All You Need Is Love”的致敬。這篇論文于2017年6月首次發表,開啟了人工智能的全新時代:生成式人工智能的崛起。
▲圖為披頭士樂隊歌曲“All You Need Is Love”封面
如今,絕大多數的人工智能應用都是以Transformer為基礎架構。它不僅嵌入在谷歌搜索和谷歌翻譯中,還是所有的大語言模型(Large Language Model)的基礎架構,包括ChatGPT和Bard等。
03.
Transformer:
把“前浪”拍在沙灘上
▲圖為Transformer架構示意,來源:金融時報
像所有科學進步一樣,Transformer建立在之前幾十年的人工智能相關領域的工作基礎上,這些工作來自谷歌自身的實驗室,以及其子公司DeepMind(現已與谷歌大腦團隊合并)、Meta和各個大學的研究人員等等。
但在2017年,這些碎片因谷歌研究部門的八位成員的偶然集結而得以融合。
最終的團隊成員包括Vaswani、Shazeer、Uszkoreit、Polosukhin和Jones,以及當時還在多倫多大學攻讀學位的實習生Aidan Gomez和Uszkoreit團隊的碩士研究生Niki Parmar。第八位作者是Lukasz Kaiser,他也是法國國家科學研究中心的兼職學者。
盡管八人團隊在教育、職業和地理背景上具有多樣性。但是,八人的共同興趣都是人工智能研究的新興領域:自然語言處理。
Uszkoreit在美國和德國長大,他說:“擁有這樣多樣化的團隊成員對這項工作的發展絕對至關重要。”
Uszkoreit最初拒絕涉足語言理解領域,因為他的父親是計算語言學的教授。但當他來谷歌實習時,他發現當時人工智能領域最有意思的問題是語言翻譯。盡管這讓他感到有些惱火,但他最后還是延續了父親的道路,開始專注于機器翻譯領域。
據他們回憶,他們最初以三個獨立小組的身份研究“自我注意力”的不同方面,但后來,他們決定集中起來。部分團隊成員負責編寫初始代碼、清洗數據和進行測試,而其他人則負責圍繞模型創建架構,并將其集成到谷歌的基礎設施中,以確保其高效運行,并最終使其易于操作。
Jones談到,“Transformer的想法是我們一起在辦公室工作時自然浮現的。”谷歌豐富多彩的開放式工作環境一定程度上保證了員工的創造力。“我記得當時Jakob Uszkoreit騎著自行車來到我的辦公桌前,他在我身后的白板上潦草地畫了一個模型,然后收集了當時在場同事的想法。”
八人團隊之間的聯系源自他們對語言的癡迷與追求,他們希望能利用人工智更好地理解語言的動機。正如資深工程師Shazeer所說:“文本實際上是我們最集中的抽象思維形式。我一直覺得,如果你想構建真正智能的東西,你應該從文本入手。”
在論文中提到的模型是對原始“自我注意力”概念的簡化版。Shazeer發現,當他們去除了所有花哨的附件后,這種簡化版的運行效果更好。代碼是模型運行的起點,但模型仍需要大量微調才能使其在GPU上運行。GPU正是最適合運行類似Transformer這樣的深度學習架構的硬件。
Uszkoreit表示,“在深度學習的概念中,重點不僅在架構本身。關鍵在于如何將它們應用到硬件上。這像是一個巨大的黑魔法的寶庫,只有極少數人才能真正掌握其中奧秘。”
這些硬件運行想法主要由Shazeer負責實現,他也被稱為“魔法師”。正因能夠在硬件中運行,Transformer在每一項應用任務中都取得了飛躍式的進步。
它的優點在于它支持并行計算,并能將計算打包,提高計算效率。Polosukhin說:“提升計算效率這件事非常簡單,因為Transformer的架構非常緊湊。”
▲圖為Lukasz Kaiser和Illia Polosukhin在NeurIPS會議上,背景中可以看到展示Transformer的海報,來源:金融時報
該論文于2017年12月發表,恰好趕上了當年在加利福尼亞南部舉行的最負盛名的機器學習會議之一——NeurIPS。他們仍然記得,當他們展示工作海報時,他們被會議現場的研究人員團團圍住。不久之后,谷歌之外的科學家們也開始將Transformer應用于從翻譯到人工智能生成答案、圖像標注和識別等各個領域中。目前,它在研究論文中的引用次數已經超過82000次。
“無論是理論還是實踐領域,Transformer都經歷了一次大爆發。”Vaswani表示:“Transformer推動了機器翻譯的發展,語言模型Bert出現。當Transformer應用于谷歌搜索時,這意味著Transformer進入了搜索領域,也就是說,人工智能迎來了一個非常重要的時刻。”
論文發表后,Parmar發現Transformer可以生成類似維基百科的長篇文本,而以前的模型很難做到這件事。她說:“當時我們已經意識到,以前的研究根本無法生成長文本。”
Parmar還意識到了Transformer的一個關鍵特性:當你給Transformer越來越多的數據時,它們能夠學得更好。這為GPT-4等大語言模型的出現指明了方向。在推理和語言能力方面,Transformer比它們的“前輩”要強得多。
“總的來說,幾乎在任何可以應用它們的領域里,Transformer的表現都優于以前的舊模型。”Jones說,“我認為這就是Transformer被廣泛應用的原因。”
04.
八人出逃谷歌的前奏:
Transformer太強了
然而,Transformer的真正威力遠超語言范疇。它可以生成帶有重復圖案或模式的所有東西,從使用DALL·E、Midjourney和Stable Diffusion等工具生成的圖像,到使用GitHub CoPilot等生成器生成的計算機代碼,甚至DNA。
▲圖為GitHub CoPilot示意
Vaswani對音樂特別感興趣,她想知道Transformer是否可以用來生成音樂。她驚訝地發現它不僅可以生成古典鋼琴音樂,還能生成當時最先進的人工智能模型。
“Transformer可以快速捕捉輸入的不同部分之間的連接方式,一旦它捕捉到,它就可以從中學習。”Vaswani說。“這是一種通用方法。Transformer可以捕捉句子中各個部分之間的連接,或者音樂中的音符,圖像中的像素,蛋白質的組成部分。它可以用于任何任務。”
05.
八人團隊陸續離開谷歌:
新的種子需要新的土壤
Transformer的起源以及其八人團隊的故事有助于解釋人類在人工智能領域的發展:這是一個關鍵轉折。就像曾經的互聯網和智能手機一樣,Transformer為新一代企業家提供了種子,讓他們為大眾開發出由人工智能驅動的消費產品。
但與此同時,這也凸顯了在演變為龐大的“官僚機構”的過程中,谷歌究竟如何扼殺了本應蓬勃發展的創業精神以及快速推出新消費產品的能力。
哈佛商學院教授Clayton Christensen曾提出一個概念,名為“創新者困境”(innovator’s dilemma)。英國《金融時報》認為,八人團隊的出逃正是這一概念的鮮明例證。“創新者困境”的概念探討了行業巨頭被小而新的企業超越的原因。盡管谷歌聚集了全球領先的深度學習和AI人才,并為他們創造了一個有利的研究環境,但卻無法留住他們自己培養的科學家。
谷歌曾在一份聲明中表示,對于Transformer和其創造的人工智能生態系統,他們感到“自豪”。谷歌承認在如今人工智能行業充滿活力的環境中,有才華的員工可能會選擇離開,堪稱喜憂參半。
專家們認為,這些知識資本的增長帶來了海量的人工智能創新。Alphabet旗下專注于人工智能投資的成長型基金CapitalG的合伙人Jill Chase表示:“Transformer已經成為幾乎所有使用大語言模型的生成式AI公司的基礎。我的意思是,它無處不在。因為有了Transformer,這些產品才得以存在。”
06.
“沒人想錯過
人工智能研究的豐碩成果”
在Transformer論文引起強烈的反響之后,八位研究人員非常希望盡快將自己的想法推向市場。
那時,人工智能研究的步伐正在加快,特別是在使用Transformer生成文本和圖像等領域,但許多創新型貢獻均來自于谷歌之外的初創公司,比如OpenAI。
據英國《金融時報》七位接受采訪的Transformer共同作者表示,他們想知道他們所創造的工具能夠做什么。“Transformer之后的幾年是研究成果最為豐碩的時期。并且模型會不斷吸收更多反饋,從而變得更智能,”Vaswani說:“沒有人想錯過這個機會。”
但他們也發現,谷歌公司的組織架構不允許員工進行冒險創業或迅速推出新產品。如果他們想要深入研究Transformer,他們需要開發一種“可以與計算機對話的新型軟件”,Vaswani補充道,“想做這件事的話,離開谷歌后會更容易。”最終,他于2021年離開谷歌。
Polosukhin早在2017年就離開了谷歌,創辦了一家名為NEAR Protocol的初創公司。他的最初想法是利用人工智能教計算機執行編程任務,但后來他轉向了區塊鏈支付領域。
后來,年輕且經驗最少的Gomez也呆不住了。他曾在Kaiser的團隊實習,他對時尚和設計充滿熱情,他認為自己正身處于有關語言理解研究的前沿。
他說,“我離開谷歌的原因是,我沒有看到足夠多的產品采納了我正在使用的技術。谷歌的產品沒有改變,沒有迭代,沒有采用這項新技術。在谷歌,我沒有看到大語言模型真正發揮它的力量。”
2019年,Gomez離開了谷歌,創辦了一家名為Cohere的生成式人工智能初創公司。該公司的估值現已超過20億美元(約合人民幣146億元),獲得了Nvidia、Oracle、Salesforce等公司的投資。Gomez希望將大語言模型應用于各種商業問題,涵蓋銀行、零售和客戶服務等領域。“對我們來說,重要的是降低企業用戶使用大模型的門檻,”他說,“每個開發者都應該能夠使用人工智能技術來構建應用。”
▲圖為Cohere官網示意
與此同時,Uszkoreit決定將Transformer應用于一個完全不同的領域。他的初創公司Inceptive是一家生物技術公司,正在使用深度學習技術設計“生物軟件”。
該公司已經向一家大型制藥公司交付了由人工智能設計的傳染病疫苗分子。Uszkoreit表示:“我相信,這是迄今為止在我過去十年的工作基礎上改善甚至拯救人們生命的最佳方式。”
Shazeer于2021年離開了谷歌,這正是他在谷歌的第二十年。他與他人共同創辦了Character.AI。該公司致力于開發生成式人工智能聊天機器人。他說:“在大公司,我們可能很難推出新產品,但初創公司可以更快地實現我們的想法。”
Vaswani和Parmar于2021年同時離開谷歌,并合作創辦了一家名為Essential.AI的人工智能公司,該公司致力于為企業構建軟件、便于企業用戶使用大語言模型。今年5月,這家初創公司獲得了由OpenAI投資者“Thrive Capital”領投的800萬美元融資。
“谷歌是一個很棒的公司,但他們希望優化現有的產品,所以我們很難推出新產品。”Parmar說:“我希望利用Transformer構建新產品,這是我離開谷歌的重要原因之一。”
07.
聚則為Transformer,
散則成人工智能宇宙
如今,八人團隊仍然時常聯系。他們不僅共同慶祝彼此的成功,也會在成為初創企業家時盡可能互相扶持,渡過各種難關。
如果說Transformer的發布是那個“大爆炸(big bang)”時刻,那么現在,屬于它的宇宙已經展開。絕大部分大語言模型都是以Transformer為基礎架構,包括AlphaFold、ChatGPT等等。
▲圖為Attention Is All You Need論文八位作者署名示意
這也導致了硅谷業內人士稱之為“技術過剩”(technology overhang)的時期——即使研究沒有取得任何進展,各行業也會花費時間將最新的人工智能技術應用到產品中。
“人們已經感受到了Transformer的深刻影響,人工智能吸引了海量研究人員、技術專家和產品人員進入這一領域。現在,我們認為人工智能技術已經過剩,這一技術可以應用于各種產品中,并實現不同的價值。”Vaswani說:“在某種程度上,這也是我們八人團隊分散于不同領域,試圖讓人類真正用上人工智能產品的原因。”
08.
結語:人工智能領域正在野蠻生長
Transformer八人團隊因一個初始想法而相聚,進而發揮各自專長,共同發布Transformer架構。此后,八個人依照各自興趣,相繼離開谷歌,并創立了聚焦于不同領域的人工智能創企。當初的星星之火,現在早已燎原。
僅以2023年上半年的融資情況來看,人工智能企業的相關融資可以說在經濟下行時期展現出逆勢上揚的態勢。國內外均對人工智能領域保持高度關注,相繼發布各類政策與文件。未來人工智能技術,或將應用于人類生活的各個方面。關于人工智能企業的各類動態,我們也將持續關注。
關鍵詞:
相關文章
精彩推送
康方生物(09926.HK)漲超6%,截至發稿,漲5.6%,報33港元,成交額8987.51萬港元
康方生物(09926 HK)漲超6%,截至發稿,漲5 6%,報33港元,成交額8987 51萬港元。