機器是否終將具備智慧?
機器真的有智慧嗎?AI研究員Subutai Ahmad和Nicolò Fusi加入Doug Burger的討論,將基於Transformer的AI與人類大腦進行比較,探討持續學習、效率,以及當前的模型是否正走向人類智慧之路。
技術進步的速度如此之快,以至於要定義我們正在努力實現的「明天」可能具有挑戰性。在《未來事物的形狀》(The Shape of Things to Come)系列中,微軟研究院負責人 Doug Burger 與各領域專家共同探討了當今技術專家、政策制定者、商業決策者及其他利益相關者所面臨的最棘手 AI 問題。目標是:增進共同理解,以建立一個讓 AI 轉型成為「淨正向」(net positive)影響的未來。
在系列的第一集中,Burger 邀請了微軟研究院的 Nicolò Fusi 和 Numenta 的 Subutai Ahmad (在新分頁開啟),共同探討當今的 AI 系統是否具備真正的智能。他們將基於 Transformer 的大型語言模型(LLM)與人類大腦的分散式、持續學習架構進行比較,探索在效率、表徵(representation)以及感官運動基礎(sensory-motor grounding)方面的差異。討論深入探究了智能的真正含義、當前模型的優勢與不足,以及未來的 AI 系統可能需要什麼來彌合差距。
了解更多:
-
匹配特徵而非標記:基於能量的語言模型微調
出版物 | 2026 年 3 月 -
一千個大腦:智能新理論 (在新分頁開啟)
書籍 | Jeff Hawkins | 2022 年 -
基於新皮質網格細胞的智能與皮質功能框架 (在新分頁開啟)
出版物 | 2019 年 1 月 -
為什麼神經元擁有數千個突觸:新皮質序列記憶理論 (在新分頁開啟)
出版物 | 2016 年 3 月 -
關於智能 (在新分頁開啟)
書籍 | Jeff Hawkins 與 Sandra Blakeslee | 2005 年
訂閱 微軟研究院播客:
逐字稿
[音樂]
DOUG BURGER: 這是《未來事物的形狀》,微軟研究院的播客節目。我是主持人 Doug Burger。在這個系列中,我們將探索 AI 能力的最前沿,深入挖掘其基本原理,真正試圖理解它們,並思考這些能力將如何改變世界——無論好壞。
在今天的播客中,我邀請了兩位 AI 研究專家:Nicolò Fusi,他是數位化、基於 Transformer 的大型語言模型架構與學習方面的專家;以及 Subutai Ahmad,他是生物架構、特別是人類大腦方面的專家。我們要討論的問題是:機器有智能嗎?
我的意思是:數位智能、大型語言模型是否正處於超越人類的道路上,還是說兩者的架構在本質上如此不同,以至於一方擅長某些事,而另一方則擅長其他事?因此,我們將辯論數位實現與生物實現中的智能架構,因為我認為這個問題的答案將真正決定「未來事物的形狀」。
[音樂漸弱]
我想請兩位嘉賓先自我介紹。談談你們的背景,以及目前在 AI 領域正在進行的工作(在可以公開的範圍內)。Nicolò,請先開始。
NICOLÒ FUSI: 好的,謝謝 Doug 邀請我們來到這裡。這很有趣。我是 Nicolò Fusi,微軟研究院(MSR)的研究員。Doug 是我的老闆,所以我在這個播客中會對 Doug 非常、非常、非常有禮貌。
不,開玩笑的,我自己的背景是貝氏非參數(Bayesian nonparametrics)。這是我開始研究的領域,像是高斯過程(Gaussian processes)之類的。同時,我也研究計算生物學,因為我發現它是 AI 技術最有趣的應用案例之一。這貫穿了我的職業生涯。和大多數人一樣,我最終從核方法(kernel methods)和貝氏非參數轉向研究語言模型、Transformer 模型,並特別關注資訊理論以及資訊理論與生成模型之間的聯繫。這是我今天主要從事的工作之一,此外我也負責管理一些研究人員,他們的工作比我的有趣得多。[笑聲]
BURGER: 我必須插話,Nicolò,因為你剛才拋出了一個誘餌。
FUSI: 我猜到了。
BURGER: 你知道,在微軟研究院,我有一條管理規則:我不能告訴任何人該做什麼,因為我們聘請的是世界上最優秀的人才。你必須信任他們。每個人隨時都可以完全自由地反駁我。所以 Nicolò 剛才是在開玩笑;[笑聲] 他不需要墨守成規。事實上,我鼓勵他不要那樣做。所以……
FUSI: 我只需要表現得體。這是我唯一要說的。[笑聲]
BURGER: 是的,謝謝你拋出誘餌。[笑聲] 因為他完全知道自己在做什麼。我因此很欣賞他。Subutai,能跟我們談談你自己嗎?
SUBUTAI AHMAD: 當然。謝謝 Doug 邀請我。我非常期待我們之間的對話。
我基本上把自己看作一名電腦科學家。我研究電腦科學的時間比我願意承認的還要長。但在大學期間,我發生了一些改變。我決定輔修認知心理學,並開始對大腦如何運作產生濃厚興趣。
對我來說,理解智能並實現智能是電腦科學家所能解決的最難問題。所以我對此非常感興趣。當時我看不出如何將其商業化,但我對開發產品很感興趣。所以我停止研究這個領域一段時間,創辦了幾家公司,從事電腦視覺、影片處理等工作。
後來,當 Jeff Hawkins 在 2005 年創立 Numenta,旨在深入理解大腦運作並將其應用於 AI 時,對我來說,就像我所有的世界都融合在了一起。這就是我必須做的事。我們誰也沒想到 [笑聲] 這會花費這麼長時間。在過去的幾十年裡,我們一直試圖從電腦科學家、從程式設計師的角度深入理解神經科學及其底層演算法。這就是我熱情所在,試圖將我們對神經科學的理解轉化為當今的 AI。
至於我們目前的工作,大腦在運作上非常高效——電力效率、能源效率——我們正試圖體現這些想法,讓 AI 比現在更加高效。
BURGER: 太好了。我想我們稍後會在播客中討論效率問題,因為作為一名最初受訓於電腦架構的人,這是我非常關心的主題。
我想回溯一下,我之所以參與 Numenta 的原因之一是,Subutai 和我多年來一直透過電子郵件交流、討論合作、互相拜訪,而真正讓我印象深刻的是我讀了 Jeff 早期的書《關於智能》(On Intelligence)(在新分頁開啟)。書中有一個例子提到人類大腦是如何持續學習的。我認為生物有機體通常都是持續學習的。
我記得那個軼事是關於走下地下室樓梯的。如果你走下通往地下室的樓梯,其中一階總是差了幾英吋,你決定修理它,把它墊高到與其他階齊平。下次你下樓時,你忘記了這件事,結果步子完全踩錯,你比預期更早或更晚踩到那一階,失去平衡,手忙腳亂。你分泌了大量腎上腺素,以為自己會一頭栽下樓梯。幸好你沒有。第二次下樓時,你還是有點失去平衡,但沒那麼誇張。第三次你可能還會注意到一點,而第四次,它就只是你普通的地下室樓梯了。
所以在第一次下樓到第三、四次下樓之間,你的大腦發生了分子層級的變化,學習了地下室樓梯的新時序。我生動地記得書中的這個例子。這讓我思考,哇,這與我們數位 AI 的運作方式「如此」不同。我把話交給你來評論,然後我們再進入數位領域。
AHMAD: 是的,這是一個很好的例子。我認為大腦如何以如此細微的程度不斷為我們的整個世界建模是件了不起的事,而我們在感知上甚至沒有意識到這一點。就像那個樓梯的例子,你可能不會自覺地意識到它,但如果你非常熟悉的世界中發生了任何變化,你會立刻察覺。然後你會更新你的世界模型,進行調整,然後繼續前行。大腦能夠如此無縫地做到這一點,真的很了不起。
BURGER: 這很大程度上是基於神經傳導物質,對吧?因為當你產生「我要摔下樓梯了」這種生理反應時,會湧入大量的傳導物質,這實際上改變了大腦學習的方式,或者至少改變了學習速率。
AHMAD: 是的,會湧入大量的神經傳導物質和神經調製劑(neuromodulators),它們會引發變化,有時非常迅速。另一個例子是觸摸熱爐子——這是經典案例——你會非常、非常快地學會。所以會發生很多化學變化。但同樣有趣的是,我們可以更新事物和世界知識,而不影響我們已知的其他一切。這與當今的 AI 模型又非常不同。我們能夠以一種非常情境化且非常精細的方式進行這些改變。
BURGER: 所以,Nicolò,我現在想談談 Transformer。我想你、我和 Subutai 在 2017 年 Transformer 出現之前的許多年前就已經在 AI 領域工作了。當時我和我的團隊正在構建硬體來加速 RNN(遞歸神經網路)和 LSTM(長短期記憶網路),這些網路具有糟糕的循環攜帶依賴性(loop-carried dependence),導致計算瓶頸,而 Transformer 則更易於並行化。
那麼你認為這些東西內部到底發生了什麼?也許我們可以從主要區塊開始——我知道我們討論過很多次——從注意力層(attention layer)、前饋層(feedforward layer)、編碼器堆疊(encoder stack)、解碼器堆疊(decoder stack)以及中間的潛在空間(latent space)開始。你能從高層次帶領我們了解這些部分,並告訴我們你認為發生了什麼嗎?
FUSI: 好的。對於 Transformer 為什麼這麼出色,我有非常主觀的看法。
BURGER: 這就是你來這裡的原因。[笑聲]
FUSI: 也許我會加入一些個人見解。我不認為這是一個超級新穎的創意觀點,但這是一個觀點。我想你已經描述了兩個主要組件:Transformer(即注意力)層和前饋層。一種思考方式是:你的情境(context)中的資訊如何相互關聯?例如在語言模型的 Transformer 中,每個標記(token)指的是什麼?
所謂情境,是指你輸入模型、且模型不斷生成並附加其後的資訊。
BURGER: 就像你的聊天記錄。
FUSI: 你的提示(prompt)。你的聊天記錄或聊天會話中的特定提示。
BURGER: 好的。
FUSI: 那個提示是一串單詞,會被離散化成一系列標記。標記可以是單個單詞,也可以是多個連接在一起的單詞。我們從單詞轉向標記通常是透過一種試圖盡可能壓縮的演算法。多個單詞(如 "the dog")可能被壓縮成一個標記,作為輸入模型的第一層壓縮。它只是試圖盡可能高效地將事物整合在一起。
然後在這些模型中,有一個 Transformer 層。這個 Transformer 層(或者說注意力層)試圖弄清楚 "the" 指的是什麼——例如 "the dog" 中的 "the",或者 "the dog jumps on the table" 中,"jumps" 指的是那隻狗。所以會發生這種映射。
然後是前饋層,在現代大型語言模型中,它們儲存了大量資訊。這通常是知識所在的地方,即模型「知道」的事情。例如,如果你把手臂撞到桌上的水杯,水杯會掉下來。這是模型透過閱讀大量關於杯子被撞掉落的描述而內化的知識。
所以對我來說,這是兩個基本組件。我之所以有主觀看法,是因為我確實相信 RNN,甚至狀態空間模型(state-space models)的現代版本,都足以學習語言數據、視覺數據或音訊數據。
Transformer 的優點在於它們做得很好的一點:它們「不擋路」。它們沒有像遞歸網路那樣「一切都必須透過狀態編碼」的概念。其次,正如你所說,它們在計算上非常高效。沒有計算瓶頸。因此它們創造了一種良好的優勢,恰好是在正確的時間出現的正確架構,釋放了足夠的資訊流通過模型……
BURGER: 是的。
FUSI: ……讓我們得以實現這些驚人的成果。
BURGER: 讓我追問一點。在注意力區塊中,你可以弄清楚哪些單詞或標記與哪些標記相關。我輸入提示,它找到所有關係,然後將這些關係傳遞給層內的前饋單元。你說知識編碼在那裡,但這些映射訪問知識,然後將其投射回輸出,再傳遞給下一層的注意力區塊,這到底意味著什麼?
FUSI: 是的。
BURGER: 這看起來有點奇怪:我訪問知識,然後獲取該知識,合併它,再回到另一個注意力映射。
FUSI: 你可以把它看作是在層的前饋部分發生的混合操作。你正在關注(attending),然後混合,並重新投射到某個具有更高資訊含量或不同資訊提取層級的空間。然後你再把它放回「好的,讓我進行另一輪處理」,再次關注,然後再次混合。如此反覆。
所以我認為提示中存在的資訊以及內化在權重中的資訊會得到越來越精細的處理。這種精細化是結構的提取還是聚合成更高層次的概念,我不確定。我認為只是提取了結構,並排除了無關的事物。但這並不一定意味著它是透過架構進行聚合的。
BURGER: 所以現在我試著重述我聽到的內容。我們正在添加資訊,並且是在更高層次添加資訊,但不一定丟棄低層次的資訊,至少不是丟棄相關的資訊,對吧?
FUSI: 是的。
BURGER: 因為如果高層次的東西依賴於低層次的東西,我必須先擁有後者。然後你到達編碼器區塊的頂部,進入潛在空間,在那裡所有資訊都達到了最大化。可以這樣想嗎?如果你同意,你能談談編碼器區塊到底是什麼,以及潛在空間是什麼嗎?
FUSI: 我傾向於同意。在給定的提示情境和模型感知的任務下,它必須突出並提取相關資訊。它不是逐層總結,而是透過增加該資訊的顯著性並抑制其他事物來實現。所以我認為最終發生的事情是,你到達了概念空間中一個美麗的點,它同時識別了你的意圖、提示中的內容以及模型知識中解決問題所需的部分。
BURGER: 最後一個問題,然後我想轉向 Subutai。
當我們通過解碼器堆疊時,我們是否只是反向操作,早期剝離高層概念,然後深入到細粒度的標記?因為你通過編碼器堆疊(注意力區塊和前饋層)到達那個神奇的潛在空間。現在我們要朝另一個方向走。你如何看待通過解碼器堆疊的另一個方向?它與編碼器區塊使用相同的原語(primitives)。
FUSI: 相同的原語。你可以把它看作是某種反向操作。你從未在過程中丟失資訊。你只是抑制或特權化了不同類型的資訊。現在你基本上只是將其投射回一個可理解的空間。這也是模型獲得其……我猶豫要不要用「獎勵」(reward)這個詞,因為它有特定的含義,但這就是計算損失(loss)的地方,然後訊號會回流通過模型。
BURGER: 沒錯,當你試圖演化和訓練「所有」這些參數時——單詞之間的關係、前饋層中的資訊、潛在空間的設計以及從中提取知識。
FUSI: 沒錯。所以在編碼器-解碼器模型中,你推動整個過程,解碼回一個特定的標記。對於不了解的人來說,這字面上就是詞彙表中的一個數字,比如第 487 號單詞。如果它本應是第 1,500 號單詞,你就會得到一個……
BURGER: 不同的結果。
FUSI: ……壞的獎勵。是的。然後如果答對了,你就會得到一個正向訊號,流回模型。
BURGER: 我現在想轉向 Subutai。聽完這些,你研究神經科學、新皮質和皮質柱(cortical columns)這麼久,我們也進行過很多辯論。人類大腦做的是不同的事情嗎?我們只是在構建潛在空間然後提取嗎?架構非常不同,但底層發生了什麼?
AHMAD: 是的,架構非常不同。當 Nicolò 描述 Transformer 堆疊中發生的事情時,我也在試圖將其與我們在大腦中所知的聯繫起來。
在典型的 Transformer 模型中,最終只有一個潛在空間,從中輸出下一個標記。大腦中並非如此。大腦中有成千上萬個潛在空間在協作。
我們發表的許多內容都冠以「千腦智能理論」(Thousand Brains Theory of Intelligence)之名。Jeff 在幾年前出版了一本關於此主題的書 (在新分頁開啟)。這可以追溯到 60、70 年代神經科學家 Vernon Mountcastle 的發現 (在新分頁開啟),他是約翰霍普金斯大學的教授。
BURGER: 是的。
AHMAD: 他發現了一個了不起的事實:我們的新皮質(大腦中最大的部分,也是所有智能功能的所在地)實際上是 由大約 100,000 個他所謂的「皮質柱」組成的 (在新分頁開啟)。
BURGER: 沒錯。
AHMAD: 每個皮質柱大約有 50,000 個神經元。皮質柱內的神經元之間存在非常複雜的微電路和微架構。
但大腦中有 100,000 個這樣的結構,大腦的每個部分——無論是處理視覺、聽覺、語言、思考還是運動行為——基本上都由這種相同的微架構組成。這是一個了不起的發現。它表明存在一種通用架構。它並不簡單,很複雜,但在大腦中不斷重複。
這就是「千腦」概念的由來……每個皮質柱實際上都是一個完整的感官運動處理系統。它有輸入,有輸出。它接收感官輸入,向運動系統發送輸出。在我們的理論中,它正在構建完整的世界模型。所以不存在單一的潛在空間,而是有成千上萬個潛在空間。
每個小皮質柱都試圖理解它那一小部分世界。一個皮質柱可能在最低層次接收來自視網膜右上角的一度視覺資訊。另一個可能專注於聽覺範圍內的特定頻率。每個皮質柱都有自己對世界的小小觀察,並構建自己的小小世界模型。
然後它們全部協作。大腦中沒有頂層或底層。大腦中沒有「小矮人」(homunculus)。一切都是平等的。它們同時協作、投票,並得出對所有感官輸入的一致解釋。什麼是單一且一致的概念?並基於此做出最相關的運動行為。
所以這是一個感官運動循環。這是一個不斷循環的系統;我們不斷做出預測。正如我們之前討論的,我們在不斷學習。每個皮質柱都在不斷更新其連接和權重。它正在不斷構建並增量改進其世界模型。所以這是一個由被稱為皮質柱的大規模分散式處理元件組成的系統,它們地位平等,並行運作。
所以我認為它們之間肯定有相似之處。但至少按照我的描述,我認為它的運作方式與我所理解的當今 LLM 非常不同。我不確定你是否同意。
FUSI: 為了更好地理解,我有一個問題:這些皮質柱是否依賴於它們本質上是同一過程的多個視角,而這些多個視角(即分配或細分的感官輸入部分)是發生在同一時間點嗎?換句話說,如果你人為地讓某些皮質柱相對於其他皮質柱延遲時間 t,學習會受損嗎?
AHMAD: 是的,絕對會。
FUSI: 也就是說,它們處於相同的時程表上有多重要?
AHMAD: [笑聲] 是的,這又是另一個……我的意思是,在當今的 LLM 中,你獲得輸入,一層處理它,然後下一層,再下一層,其他層則不運作。在大腦中不是這樣的。一切都在並行非同步運作。這很重要。它們不斷嘗試做出預測等等。所以如果你人為地減慢某些皮質柱的速度,你絕對會受挫。你的思維絕對會受損。
BURGER: 我想插話,因為這正是……這場討論是我「超級」感興趣的地方,我也花了很多時間向 Subutai 學習。如果我想到我的皮膚(這是一個器官),據我所知,我的每一片皮膚都連接著一個皮質柱,而那片皮膚的大小與那裡的編碼密度相對應。
AHMAD: 沒錯。
BURGER: 所以在我大腦中,有一組皮質柱是皮膚感測器,我實際上可以……如果我給大腦中所有的皮質柱編號,我可以在皮膚上畫一張地圖說:「這一片是第 72 號,這一片是第 73 號。」那麼人類的皮質柱是否比老鼠的更好呢?當然,這是一個引導性問題,因為我知道答案。
AHMAD: [笑聲] 是的。在你的感官區域(初級感官區),每個皮質柱都關注或接收來自你身體某處的一片皮膚的輸入。與背部的一平方公分相比,與指尖相關的皮質柱要多得多。所以我們對某些感官資訊區域確實會投入更多的關注和物理資源。
至於老鼠和人類,皮質柱……所有哺乳動物都有皮質柱;所有哺乳動物都有新皮質。從老鼠到人類,所有哺乳動物都有皮質柱。老鼠的皮質柱與人類的非常相似。並非完全相同,確實存在差異。但總體而言,老鼠皮質柱的架構與人類皮質柱基本相同。人類的皮質柱更大,神經元更多,細節更豐富,但本質上是一樣的。而且……
BURGER: 也許只是規模擴大了一點。
AHMAD: 是的。所以進化基本上發現了這種結構——它在處理資訊和應對環境方面非常出色——然後在進化的短時間內,基本上發現如果你能增加皮質柱的數量,就能得到更聰明的動物。這在進化史上發生得非常快。
FUSI: 我以前不知道皮質柱分布不均。我不是神經科學家,所以這很有趣,因為現代模型架構最令人沮喪的一點是,無論輸入是什麼,它們都投入恆定的計算量。
所以我預測 "the" 之後的單詞 "dog" 所經過的層數,與我試圖解決一個非常複雜的數學問題或判斷提示中某個定理是否被證明所經過的層數是一樣的。這很有趣,因為現代架構的一些當前實例實際上試圖將事物聚類,以便你擁有恆定的資訊量,然後將其推動通過模型。[笑聲] 所以也許在我的指尖,我需要比手肘更多的處理,因為……這是有道理的。
BURGER: Nicolò 太謙虛了。他兩年前就在研究這個問題並告訴過我。這是我從你那裡學到的讓我產生不同思考的事情之一。所以……
FUSI: 我只是喜歡提到「人們」正在研究這個……[笑聲]
BURGER: 那些不一定全是天才 AI 科學家的普通人。
不過,預測的部分才是真正迷人的。同樣,這也是 Subutai 和我多年前討論過的。如果我把手指移向桌子……我的大腦正在做出預測,因為我有世界模型。它知道桌子在那裡。代表那片皮膚的皮質柱在靠近時,開始預測我會感覺到「像」桌子的東西。然後,碰到了。預測達成。
但如果我碰到它時感覺冰冷、燙手、蓬鬆,或者它不存在(我穿過去了),我就會產生一陣劇烈的活動,因為預測與世界模型不符,這就是學習發生的地方。
Subutai,這聽起來是正確的模型和直覺嗎?
AHMAD: 是的,這絕對是一個非常重要的組成部分。我們不斷做出預測。正如你所說,你把右手指尖向下移;也許你從未坐過這間辦公室,或見過這張桌子,你仍然會有一個預測,一個非常好的預測。
BURGER: 是的。因為你知道桌子是什麼。
AHMAD: 你知道桌子是什麼。如果它有所不同,你會立刻注意到。但如果你沒注意的左手也感到冰冷,你也會立刻注意到。所以你實際上不只是在做一個預測;你是在不斷地做成千上萬個預測。
BURGER: 每個皮質柱。
AHMAD: 每個皮質柱都在做預測。如果發生了異常、高度異常的事情,你會注意到。這是我們通常意識不到的;我們「不斷地」在做非常細粒度的預測。當出錯時,我們會從中學習。
另一個有趣的事情——這同樣可能與 LLM 的運作方式不同——如果我讓你摸桌子的底面,你可以在不看桌子或閉上眼睛的情況下,移動手指去摸桌底,因為你有一套與之相關的參考框架……
BURGER: 是的……
AHMAD: 沒錯。你做到了。
BURGER: 我做到了!是的。太神奇了。
AHMAD: 即使你可能從未進過這間房間,或見過這張桌子。這沒關係。
BURGER: 我進過這間房間,因為我們要為播客系列做準備。但我肯定沒摸過桌子底下。[笑聲]
AHMAD: 是的,沒錯。[笑聲] 所以,我們知道事物之間的相對位置,知道我們身體與一切事物的關係,我們可以非常迅速地學習。同樣,如果桌子底部有異常,你會注意到並可能記住它。
FUSI: 我不騙你。我剛才還期待你在桌子下面發現什麼,[笑聲] 就像脫口秀一樣。
AHMAD: 或是口香糖之類的。
FUSI: 「如果你伸手到桌子下面,你會發現我論文的副本。」[笑聲]
BURGER: [笑聲] 如果我更聰明、準備更充分,那正是會發生的事。但抱歉,各位。
我想 Subutai 曾告訴過我一些事情……我先做一點鋪墊。
大腦在每個神經元中都有這些樹突網路(dendritic networks),它們形成突觸(synapses)。當一個神經元放電時,該神經元的軸突會透過突觸傳播訊號,這可能會對下游神經元的樹突進行一些訊號處理,而這些下游樹突則可以引導神經元放電。這是基本機制之一。而正是那些在上游和下游神經元、樹突之間形成的突觸,似乎是學習的基礎。對我來說,這感覺有點像注意力映射。
AHMAD: 是的。
BURGER: 所以樹突網路可能在做類似自注意力(self-attention)的事情,我們在 MSR 也有一些這方面的研究。但你告訴我的是,你的大腦實際上在投機性地形成極大量的突觸。在某種意義上,當某事發生時,它會對世界進行採樣,以防它再次發生。這更像是……也許是赫布學習(Hebbian learning)的一個版本,對吧?「一起放電的神經元會連在一起」(Things that fire together, wire together)。
AHMAD: 沒錯。
BURGER: 但如果那個模式不再出現,它們就會被修剪掉。我想問,大約每三、四天,你的突觸有多少比例會更新?
AHMAD: 好的。我記得這個。這是一個絕對令人震驚的 《神經科學雜誌》(The Journal of Neuroscience)的研究 (在新分頁開啟)。大腦中很多學習是透過增加和減少連接來實現的。
在 AI 模型中,通常是加強權重(高精度的浮點數),使其變大或變小。但你不會增加或減少連接。連接始終存在——事實上,層與層之間是全連接的。而在大腦中,你總是在增加和減少連接。這是我們學習的基本機制之一。
我在這項研究中讀到的是,他們觀察了成年老鼠和成年動物,發現他們追蹤了幾個月內連接的突觸數量——他們能夠追蹤大腦特定部位的單個突觸——結果發現,每過四天,原本存在的突觸中有 30% 消失了,並出現了新的 30%。有大量的連接在不斷被添加和修剪。我的理論是,我們總是在投機性地嘗試學習事物。
我們每天都會接觸到各種隨機的巧合和事物。我們在那裡不斷形成連接,因為我們不知道哪些是真正需要的,哪些是真實的,哪些是隨機的。大部分是隨機的,大部分是不必要的。而真正必要的東西會保留下來。但我們一直在嘗試學習。
這是持續學習中常被忽視的一部分,我認為,就是我們不斷形成新連接,然後修剪掉不需要的東西。在 AI 模型中,如果你這樣做,它會……我不知道,它會瘋掉。[笑聲]
BURGER: 讓我們深入探討一下。當你告訴我這件事時,我的理解是……
AHMAD: 這 30% 真的很驚人。
BURGER: 太瘋狂了。
AHMAD: 幾天後你的大腦就會完全不同。
BURGER: 太令人震驚了。當你告訴我這件事時,我花了一些時間處理它,所以在那段時間裡有大量的突觸被創建和銷毀。
但這讓我想到,我們所有的皮質柱都在不斷接收所有這些輸入。眼睛、聽覺、嗅覺、味覺、皮膚、熱度,然後是與人的互動,還有計畫和經驗,在各個層次上。它們不斷對所有這些湧入的噪聲進行採樣,基本上是過濾掉噪聲。這有點像低通濾波器。但當具有統計意義的事物再次出現時,它就會鎖定並變得持久。
AHMAD: 是的,我想是的。發生了這麼多事情,你一直在學習。當你觸摸熱爐子時,特定區域會湧入多巴胺,導致這些突觸非常、非常快地加強。你知道,大多數學習到的突觸都是非常微弱的。
BURGER: 是的。
AHMAD: 所以,在這項研究中,他們也量化了強突觸與弱突觸的更新率。令人欣慰的是,強突觸會保留在那裡。真正不斷增加和減少的是這些弱突觸。然後其中一些會變強。
BURGER: 現在我想回到 Nicolò,但帶著一個觀察。
當我訓練 Transformer 時,它也是一個基於預測的系統。我在訓練集中有輸入,我有遮蓋的標記或我試圖預測的下一個標記。我運行它。我觀察它預測成功的程度,誤差越大,我就越強烈地驅動誤差訊號回流通過網路。所以,如果預測完全準確,我就學不到什麼。但如果預測大錯特錯,我就必須改變很多東西。這聽起來與 Subutai 剛才描述的皮質柱很相似。
FUSI: 沒錯。不過,在預訓練(pretraining)中,特別是預訓練這些語言模型時,我有個很大的不滿。
BURGER: 好的。
FUSI: 再次說明背景,語言模型(以及許多其他大型模型實例)通常分幾個階段訓練。其中之一是預訓練,你有地面真值(ground truth)文本,你移除最後一個單詞,然後要求模型預測它。這就是你獲得損失的地方。單詞對了嗎?錯了嗎?
我的一個大問題是,在人類經驗中,我們並非「每一個念頭」都獲得反饋。
語言模型在預訓練中的問題在於,它們使用一種稱為「教師強制」(teacher forcing)的方法。它們猜測單詞,然後立即獲得訊號,接著正確的單詞被填入,然後它們再預測下一個。
所以當你讀一段文字時,你會不斷獲得這種獎勵。這是一種非常奇特的訓練模型的方式。這是必要的,因為你希望有大量的監督流,以便利用所有可用的計算資源。但同時,這實際上讓模型可能比在有足夠計算資源、不使用這種方法訓練的情況下稍微差一點。
我扯遠了,因為這是我的不滿。[笑聲]
BURGER: 這是一個非常重要的點,因為你訓練模型的目標是以最小的成本和時間達到損失目標。或者在固定預算下達到最低損失目標。
但生物系統的目標是在能量最小化的情況下生存。所以,一旦你建立了一個有效的世界模型(比如摸桌子、摸桌底——沒錯,還是沒什麼刺激的),做這些事只需要極少的能量。我認為一個悲劇是我們大腦中都有這些超級電腦。新皮質大約只有 10 瓦,卻能創作交響樂。但一旦我們有了世界模型,我們中的許多人就停止學習了,因為這很舒服。你不需要擾動狀態。你可以度過每一天,所有的預測都成功了 [笑聲],沒有驚喜。
所以所有新的突觸都被掃走了。這不是預訓練的目標,因為那樣只是浪費能量。但我們正試圖最小化能量消耗。所以我覺得這在某種意義上是一致的。
我有一個「稻草人」假說想問你們,但在那之前,Nicolò,我想請你談談你對壓縮的看法,比如將 LLM 視為壓縮器,因為我知道你對此非常熱衷且有主見。我也從你那裡學到了很多。
然後,Subutai,我想聽聽你的生物學回應。我是說,從生物學角度的回應。[笑聲] 然後我想拋出這個混合稻草人假說。Nicolò,談談壓縮吧。
FUSI: 觀點是,生成模型基本上是資訊理論意義上的壓縮器。因此,試圖開發更好的生成模型等同於試圖為某些數據尋找最佳壓縮器。而且……
BURGER: 當你說壓縮器時,是指無損(lossless)還是有損(lossy)?
FUSI: 我是指無損。
BURGER: 好的。
FUSI: 你可以從我那個常被詬病的預訓練目標函數(即下一個標記預測)中,與你試圖進行壓縮(即為你試圖壓縮的事物尋找最短代碼)的過程畫出完全的平行線。
所以這兩者是一樣的,它融入了一個更廣泛的圖景,可以追溯到奧卡姆剃刀(Occam’s razor)、柯氏複雜性(Kolmogorov complexity)和索羅門諾夫歸納原理(Solomonoff’s principle of induction):你希望對世界上可能發生的事情有簡短的描述,並且希望產生這些簡短描述的演算法本身也是簡短的。這就是最小描述長度(minimum description length)原則。
我覺得這也符合你所說的「如果你有一個好的世界模型,為什麼要尋找驚喜?」的概念。因為它同時影響兩個項:演算法(即你自己的世界模型)以及當意外發生時你產生的損失。
所以如果我是世界上的一個代理人(agent),試圖最小化世界的最小描述長度,我會傾向於尋找分布內(in-distribution)的數據,這樣我就不會過度增加我的驚喜項。
BURGER: 沒錯。我想你曾說過,在訓練模型時,即使模型 A 和模型 B 的損失點相同,如果模型 A 的損失曲線比模型 B 更陡,它就能更快地達到更好的基於壓縮的詞彙表,這使它更具通用性。從壓縮的角度來看,曲線的形狀很重要。
FUSI: 是的。我想在這裡詳細說明一下我所說的……
BURGER: 是的,請。
FUSI: ……最小描述長度原則。最小描述長度原則基本上是你正在訓練的模型損失,這是一個組成部分。它是你預測每個單詞時所犯錯誤的總和。這是第一項。另一項是描述模型和訓練過程所需的代碼長度……
BURGER: 沒錯。
FUSI: ……以達到那條訓練曲線,產生那條訓練曲線。
BURGER: 沒錯。
FUSI: 所以,如果你整體來看,其中一項是固定的。它是用代碼寫出一個語言模型所需的代碼量。字面上實作它,不是權重,只是實作它的初始化和訓練循環。然後在另一邊,你有隨著觀察數據而產生的訓練損失。當然,因為它是一個總和,你真正想最小化的是面積,你想最小化總和。所以,一條平坦的曲線比陡峭的曲線要好得多,即使最後的結果稍微好一點。
BURGER: 是的。凹(concave)比凸(convex)好。
FUSI: 除此之外,是的。[笑聲]
BURGER: 抱歉。我想我們可以專門做一集關於壓縮觀點的節目,因為這真的很迷人。無損的部分讓我大開眼界。我猜這裡有多個陣營,而你堅定地站在其中一個陣營,所以我猜我們會收到其他陣營的很多反饋。
那麼,Subutai,我可以把皮質柱看作壓縮器嗎?
AHMAD: 這是個好問題。壓縮文獻中有很多可以借鑒的見解。如果你觀察皮質柱中的表徵以及神經元群體,你必須處理的一件事是大腦並沒有連接一個巨大的核電廠。
我們只有大約 12 瓦的功率來處理我們想做的一切,而進化發現的表徵是非常稀疏的。這意味著一層中可能有成千上萬個神經元,但一次只有大約 1% 的神經元是活躍的。所以這是一個非常小的神經元子集在活躍。
我不確定最小描述長度是否適用。我可以說幾點。總的來說,當你預測得很好時,表徵是非常稀疏的。當你看到驚喜時,會有一陣活動爆發。
BURGER: 是的。
AHMAD: 當發生不尋常的事情時,會有更多的神經元放電,而且……
BURGER: 這就是為什麼學習很「累」!
AHMAD: 這就是為什麼學習 [笑聲]……沒錯,沒錯。
所以我們認為發生的是,事物的實際表徵是極少數神經元。當你感到驚訝時,可能有很多事物與該驚喜一致,因此你的大腦會同時表徵所有這些事物的聯集(union)。
當你擁有非常稀疏的表徵時,你實際上可以擁有許多不同事物的聯集而不會產生混淆。這就是我們認為正在發生的事情。所以它是一種非常壓縮、非常高效的表徵。正因為只有極小比例的神經元在放電,我們在表徵事物時非常節儉,且在代謝上極其節能。
BURGER: 我想談談效率點,但在那之前,你提到 1% 到 2% 的神經元在放電。但實際上,大腦在細粒度上比這還要稀疏,對吧?
AHMAD: 是的,沒錯。
BURGER: 因為你有 1% 的神經元在放電,但它們並沒有連接到該區域的所有其他神經元。
AHMAD: 沒錯。
BURGER: 所以真正的稀疏度應該是連接比例乘以活動因子的乘積。
AHMAD: 是的。
BURGER: 大約是萬分之一。類似這樣。
AHMAD: 沒錯。大約 1% 的神經元在任何時間點放電,而可能只有 1% 的可能連接在任何時間點存在。所以這是一個非常、非常小的子網路,通過這個龐大的網路被激活,只有極小比例的神經元通過極小部分的完整網路。
常有人說:「我們只使用了大腦的 1%。」這是不對的。這只是意味著在任何時間點,你只使用了 1%,但在其他時間點,會使用不同的 1%。所以活動確實會移動。但在任何時間點,它都極其微小。
BURGER: 所以,稀疏度、表徵——大腦如何在生物學上進行這種壓縮——超級迷人。我現在想繞道談談效率。我記得在 2017 年,我們在 MSR 構建硬體來加速 RNN。
然後 Transformer 出現了,它們被優化為在 GPU 的二次方注意力映射上高度並行化。我會將其描述為:轉向半監督訓練(semi-supervised training)使我們從一個真正受數據限制的時代(你必須擁有高品質的標記數據),轉向了受計算限制的時代。
當這種轉變發生時,我們從「我正在構建更快的機器,但我受限於數據」變成了「只要我有足夠的高品質未標記數據,我構建的機器越大,模型就越好」。於是我們進入了超級電腦軍備競賽,現在我們正在構建這些龐然大物。
實際上,我們一直在用蠻力解決問題。雖然我們做了很多優化,比如量化、更好的製程節點、更高效的張量單元設計。但從一階近似來看,我們是透過構建更大的系統來訓練更大的模型。
我只是在想,你認為大腦在新皮質中以 10 到 12 瓦的功率運作,是否擁有一種本質上更高效的學習機制?還是說我們在最先進的矽晶片上所做的 Transformer 已經同樣高效,只是我們正在構建更大、更強大的模型?
AHMAD: 毫無疑問,Transformer 非常低效,而且非常依賴蠻力。我們之前稍微提到了注意力機制,Transformer 基本上是在比較每個標記與其他所有標記。雖然有些架構可以減少這種情況,但本質上是一個 $n^2$ 的操作。而且我們在每一層都這樣做。
大腦中完全沒有類似的東西。在某種意義上,我即將說出的下一個詞的情境是我的一生,對吧?而我說下一個詞所需的時間完全不取決於情境的長度。它對情境的依賴是常數時間(constant time)。
所以這在計算需求上是一個顯著的降低。你可以這樣想:大腦——我想大腦大約有 70 兆個突觸。當我說大腦時,我是指新皮質,大約有 70 兆個突觸。而它只使用 12 瓦。一個突觸大致相當於一個參數。
如果你使用當今最高效的 GPU 試圖運行一個 70 兆參數的模型,那將需要大約一兆瓦(megawatt)的電力。這比我們大腦的效率低了幾個數量級。所以我絕對相信這一點。
BURGER: 我使用的指標(回到你的觀點)是……我想我們以前討論過這個,對吧?在這種趨勢開始幾年後,我們試圖預測在當前模型下這能走多遠,以指導研究和你所採取的方向。這也是為什麼我對稀疏度以及與你合作如此感興趣。
我們會觀察一次訓練運行,然後問:訓練整個模型花了多少焦耳?我們有多少參數?我們的「每焦耳參數」是多少?如果按這個指標衡量,我們與大腦相比差了許多個數量級,但我不知道這是否是正確的指標。有什麼想法嗎?
AHMAD: 是的。在某些方面,Transformer 體現的知識比任何人類都多。
BURGER: 沒錯。
AHMAD: 它基本上記住了整個網際網路的知識。
BURGER: 所有的科學論文……
AHMAD: 所有的科學論文。無論好壞,它都記住了。這是人類無法做到的。所以 Transformer 肯定有比人類更好的地方。
但從根本上說,我認為我們在處理下一個標記或下一位湧入的資訊時極其高效。我認為我們可以從大腦中學到很多東西,並將其應用於 LLM 和未來的 AI 模型。
FUSI: 我想問一個相關的問題。忘掉記住網際網路這件事。讓我給你另一個 Transformer 做得很好的例子。我在想人類大腦這方面的表現,因為 Transformer 由於 $n^2$ 的計算,它們非常擅長「大海撈針」(needle in the haystack)之類的事情。
我可以現在對你說話,告訴你密碼是一個愚蠢的東西,比如 "podcast microphone blue"。這就是密碼。然後我繼續為你朗讀整本《奧德賽》或其他一堆書,讀上 5 或 6 個小時。然後我問 Transformer:密碼是什麼?Transformer 會進行多次 $n^2$ 計算,然後吐出密碼。
人類的話,那個密碼會衰減。在某個時間點,你就不會記得了。根據不同的人,可能是在《奧德賽》的第一章或最後,但……所以從根本上說,兩者進行的計算類型是非常不同的。所以我總是在思考效率,因為這就像是不同的計算類型。效率有點像是「你正在做什麼」除以「你做得有多好」。當我們所做的事情在許多方面如此不可比擬時,這總是讓我感到困擾。我不知道……我不知道這算不算一個問題。[笑聲]
AHMAD: 是的。Transformer 可以做人類覺得非常、非常困難的事情。絕對的。也許有一種方法可以兼得。我不知道。我不認為為了獲得所有這些功能,本質上必須使用如此蠻力的計算。
FUSI: 沒錯。
BURGER: 是的。這是一件奇怪的事情,因為這就是為什麼「記憶宮殿」如此有效。人類有一種方法可以記住我的麥克風是灰色的。Nicolò,它其實不是藍色的。
FUSI: 我的是藍色的。你沒看到。它在鏡頭外。你看,你的世界模型……
BURGER: 它在鏡頭外。是的,我知道。我只是在逗你。
但有一種方法,如果我能把它連接到足夠多的事物上,建立那個連接圖,我就能記住它,因為它從噪聲中捕獲了訊號,並連接到足夠多的事物以便我檢索。檢索將是另一個我們今天沒時間討論的主題。
但我確實……現在我想談談那個稻草人假說。讓我們把持續學習先放一邊。想像一下,當我度過一天時,我只是保存所有的感官數據來放入我的訓練集。現在想像一下,我拿 100,000 個小的 Transformer 區塊,我分別用它們看到的東西來訓練它們。
好的,我重播這一天,所以我不需要擔心持續學習,也不需要擔心跨皮質柱的輸出、輸入路由功能——Subutai,我們討論過這個——那裡有一套複雜的佈線,將特徵從這裡帶到那裡,這是學習得來的。如果我複製那個,Transformer 區塊能做到皮質柱所做的事情嗎?
我能不能在世界上所有的感官片區都裝上小的 Transformer 區塊,然後以正確的方式把它們連接起來,讓它運作?
AHMAD: 我認為還缺少幾樣東西。一是皮質柱從根本上是感官運動的。所以它們每一個都在發起行動。所以你不能從根本上提前擁有一個靜態數據集。它總是一個動態過程,因為我們不斷地移動以獲取下一位數據。所以……
BURGER: 我不能把它標記化(tokenize)嗎?
AHMAD: 你可以將輸入標記化,也可以將輸出標記化,但如果你把同一組輸入重播給一個隨機佈線不同的皮質柱,它可能會做出不同的行動。一旦它做出的第一個行動不同,那個數據集就不再有效了,對吧?你不能從根本上……你必須有一個環境的模擬,而不是一個靜態的單向數據集。
所以我認為這是當今 Transformer 缺失的一環,即這種感官運動循環。另一個部分是我們談到的持續學習。
BURGER: 是的。
AHMAD: 我想你說過把它放一邊,但是……
BURGER: 它是根本。
AHMAD: 根本性的不同。是的。也許還有另一個區別。我們之前談到了單一的潛在空間,以及在 Transformer 頂部做出的預測,你據此計算損失函數並反向傳播。神經元不是這樣學習的。每個神經元實際上都在做出預測,每個神經元都在接收其輸入。
它是獨立於頂部發生的任何事情進行學習的。所以這是一個更細粒度的學習訊號。資訊確實會從上往下流,但也有許多其他資訊來源供其學習。所以從機制上講,它是不同的。
BURGER: 我之所以問這個,是因為我現在想進入一些有趣的推測。與兩位的對話非常精彩。我想我們已經闡明了差異。自從我聽了 Nicolò 關於世界壓縮觀點(無損壓縮),以及 Subutai 關於千腦理論、皮質柱和對世界採樣以捕獲可學習訊號的觀點後,我一直在思考。
假設我能設計一個非常小、高效的數位皮質柱。也許它是基於 Transformer 的,具有稀疏表徵和內建的感官運動機制。也許它是更基於樹突的,映射到數位硬體中。然後我在世界上的每個感測器上都放一個皮質柱,與每個人相關聯,並將它們連接在一起,擁有數十億個這樣的皮質柱,可以形成更高層次的抽象。你們認為會發生什麼?我們可以做什麼?
AHMAD: 這是一個極好的思想實驗 [笑聲]。同樣,假設皮質柱是忠實的,並且可以產生或建議運動行為。在某種意義上,你可能擁有一種超級智能系統,對吧?比地球上任何其他東西都聰明得多。
現在我們正在擴展皮質柱的數量,不是從老鼠到人類可能擁有的十萬個皮質柱,而是潛在的數十億個甚至更多。沒有理由認為那裡有任何根本性的限制。所以我認為這種系統最終會成為構建超級智能系統的方式。
BURGER: 但這是一個非常不同的方向……
AHMAD: 這是一個非常不同的……
BURGER: ……與我們目前前進的方向完全不同。目前我們正致力於這些單體模型(monolithic models),進行大量的強化學習(RL),以獲取高品質的人類協作。
AHMAD: 是的。這與我們今天的做法完全不同。
所以我認為,要走那條路,需要對我們的一些假設進行根本性的重新思考,甚至可能涉及到實現它所需的硬體架構。基礎學習演算法、基礎訓練範式。我們談到了,你不能有一個靜態數據集。你不斷地在世界上移動並做事。所以這是一種與我們今天非常不同的 AI 實現方式。
BURGER: 聽起來現在是成為 AI 研究員的好時機。
AHMAD: 絕對是。[笑聲]
BURGER: Nicolò,你對那個假設有什麼反應?
FUSI: 聽起來超級有趣。我的大腦在飛速運轉。我的背景非常不同,所以我回答這個問題的立場要差得多。但我開始在想:好的,如果我這樣做,我的損失函數會是什麼?資訊將如何流過系統?聽起來每個皮質柱都會有自己的損失,然後我會將它們聚合——然後我會添加一個更高層次的貢獻。
然後回到我的問題:時間資訊是如何協調的?因為理解這一點的一種方式是,它有點像一個多視角(multi-view)框架。
你有同樣的現象表現在多個獨立但同時存在的視角中。所以我的一部分感覺是,你需要以某種方式將這些皮質柱聯繫起來,以便如果你使用基於梯度的法進行訓練,它們都能獲得梯度反饋。所以這感覺非常、非常有趣。
這與機器學習中的許多想法(雖然很表面)有關,比如:擁有一個巨大的超深網路更好,還是擁有一堆淺層網路更好?但區別也在於你訓練它們的方式,對吧?我們通常在相同的目標和相同的數據上訓練這堆淺層網路,而不是通常進入一個經驗循環。而這聽起來是一種不同的做法。
BURGER: 沒錯。我想把話題拉回到播客的標題。我分享一個觀察。我一直在使用一些最新的模型來編碼,它們進步得非常快。我也一直在用它們來重新學習一些我從未深入理解過的物理知識。
特別是廣義相對論,比如 $E=mc^2$。為什麼 $c$ 會在那裡?諸如此類。因為現在它可以向我解釋,我可以不斷鑽研直到我理解為止,當然還有工作。
在某個時刻,我問模型:「你能描述我是如何思考的嗎?」我只是好奇。它給了我一頁描述,讓我驚掉下巴,因為我說這東西比我自己還了解我。我不認為任何人類(包括我自己)能捕捉到我學習的方法和我大腦運作的方式,我讀完後的感覺就是:沒錯,就是這樣。我學到了一些關於我自己的東西。
所以我不會說它通過了圖靈測試,因為這遠超圖靈測試。這東西對我的了解比我想像中任何機器所能達到的都要深。我的意思是,我正在與它對話。它可能是人類,但它是超人類。所以從某種意義上說,它具有超越人類能力的智能,能夠辨別某人互動方式中的模式。然而它是一個工具。它沒有意識。它沒有代理權、具身性或情感。它從訓練數據中理解了很多這些東西。但歸根結底,它是一個隨機鸚鵡(stochastic parrot),對吧?它有權重,我給它一個標記,它輸出一個標記。所以,這些機器到底有沒有智能?
FUSI: 我讓 Subutai 先回答。[笑聲]
AHMAD: 好的。它絕對是一個「學者」(savant),對吧?它對世界有巨大的知識儲備。它吸收了大量的東西,並能以令人驚嘆的方式表達出來。而且,它獲取了你可能成千上萬次的聊天記錄,並能以卓越的方式進行總結。
同時,我認為 Transformer 並不具備像三歲小孩那樣的智能,對吧?一個三歲的人類非常有好奇心,不斷在學習。他幾乎可以學習任何東西。而且,一個三歲的愛因斯坦能夠學習並最終提出震驚世界的理論,比如 $E=mc^2$。
那麼 Transformer 能做到嗎?我不這麼認為。所以我認為仍然存在差異。它能做的事情很神奇,但仍有一些孩子能做而 Transformer 做不到的基本事情。所以我認為仍然存在差距。具體如何表達以及如何彌合這個差距,當然是價值兆元的問題。但它是可以彌合的。今天確實存在差距。
BURGER: 沒錯。Nicolò?
FUSI: 從我的角度來看,我認為它們是有智能的。我回歸到智能的定義,即:你能在各種環境中實現你的目標嗎?這是一個非常基礎的定義,但它可以是具身智能的一種形式,一種代理智能。如果我把你丟在一個環境中,給你一個目標,你能實現它嗎?環境越狂野,任務就越難。
我同意 Subutai 的觀點。我們一直描述的智能具有「參差不齊性」(jaggedness)。
BURGER: 是的。
FUSI: 這些東西不能同時是超級優秀的、奧林匹亞競賽級別的數學家,卻在你試圖弄清楚汽車電池中哪根電線接哪裡時給你愚蠢的答案。
BURGER: [笑聲] 那它比我強。我不是奧林匹亞級別的數學家,而且我經常做蠢事。
FUSI: 我知道,沒錯。那是一個壞例子。但你明白我的意思。部分原因回到了壓縮觀點。我確實相信智能就是壓縮。即為複雜現象甚至複雜世界提出簡潔解釋的能力,進而暗示或導致你在其中運作的能力。事實上,我們擁有這些可以證明瘋狂定理卻在相當基礎的任務上失敗的東西,這表明 Transformer 在它們賦予世界的歸納偏置(inductive biases)和計算方面是很棒的,但我們最終都受限於 天下沒有白吃的午餐定理 (在新分頁開啟)。
在世界上你可能追求的所有任務中,你有某些歸納偏置,它們以犧牲其他任務為代價來特權化某些任務。目前還沒有一種東西能擴展我們可處理的任務集。所以我確實認為,這是一個重新思考我們處理幾件事的方法的問題,無論是在架構方面,還是在損失函數和訓練這些系統的方式方面。我認為有機會擴展這些模型的智能前沿。但從我的角度來看,它們已經是有智能的了,只是表現得比較參差不齊。
BURGER: 這是一個非常有趣的問題,我知道很多人對此寫了很多文章。但我認為我們並沒有開闢什麼新領域。但是,任務的多樣性、你是否能處理細微差別並深入理解、你是否能持續學習(目前系統還不行)、你是否具身(我不知道這是否重要)、你是否有目標(我們可以給它們一個)、你是否有意識(那是另一回事)……
感覺就像有一堆複選框,我們已經勾選了一些,還有一些沒勾選。也許對於那個門檻在哪裡並沒有共識,因為智能有很多維度,其中一些甚至是人類不具備的。
FUSI: 這就是為什麼我們有 AGI(通用人工智慧)和 ASI(超級人工智慧)這些術語,人們在爭論什麼是「通用」(General),什麼是「專用」(Specialized)。這是一個巨大的論述。但如果你回溯定義,回到我的學生時代,回到柏拉圖、亞里斯多德和笛卡兒對智能的定義,在某種意義上,你會看到幾個世紀以來我們對智能定義的「球門柱」一直在移動。
BURGER: 沒錯。
FUSI: 我覺得我們現在還在這樣做。
BURGER: 是的。我們會這樣做很長一段時間,在 AI 的速度下,這可能又是四、五年。
嘿,我只想感謝兩位的對話。我珍視你們兩位,作為智者、學者和朋友。能和你們一起鑽研技術真是太愉快了。謝謝兩位抽出時間。
AHMAD: 非常感謝 Doug 邀請我。
FUSI: 謝謝邀請我們。這太棒了。
[音樂]
標準結尾: 您正在收聽的是《未來事物的形狀》,微軟研究院播客。欲了解更多劇集,請訪問 aka.ms/researchpodcast,或在 YouTube 及各大播客平台搜尋。
[音樂漸弱]