關於 Dwarkesh Patel 對 Ilya Sutskever 的第二次訪談

Lesswrong·

Ilya Sutskever 探討了從單純擴展規模轉向全新研究時代的變革,並強調目前的訓練方法正遭遇瓶頸,實現超智能需要在對齊與泛化能力上取得根本性的突破。

有些播客本身就自帶「沒錯,我一定要拆解這集」的氣場。這一集顯然就是其中之一。那我們開始吧。

雙擊以與影片互動

與往常的播客文章一樣,基礎的列點描述了關鍵觀點,而嵌套的陳述則是我的評論。

如果我直接引用,會使用引號,否則請視為轉述

主要的收穫是什麼?

  • Ilya 認為目前形式的訓練將會逐漸停滯,我們正在回歸一個研究時代,進步需要更多實質性的新想法。

  • SSI 是一個研究機構。它嘗試各種事物。不開發產品讓它在算力和有效資源方面,能發揮遠超其融資規模的影響力。

  • Ilya 對於潛在的超智能學習模型,給出了 5 到 20 年的時間線。

  • SSI 最終可能還是會先發布產品,但機率不大?

  • 在我看來,Ilya 對對齊(alignment)的思考在關鍵方面仍顯得相對淺薄,但他掌握了許多重要的洞見,並理解自己面臨一個問題。

  • Ilya 基本上對「除了儘早且頻繁地向大家展示這東西」並寄望於最好的結果之外,缺乏實質性的計劃感到絕望。他不知道該往哪裡走,也不知道如何到達那裡,但他確實意識到自己不知道這些,所以他已經領先於大多數人。

隨後,本文還涵蓋了 Dwarkesh Patel 關於 AI 進展現狀的文章

目錄

解釋模型的鋸齒性

  • Ilya 開場提到,這一切(指 AI)竟然是真的,這太科幻了,然而到目前為止在其他方面卻還沒感受到。Dwarkesh 預計普通人對這種感覺會持續到奇點(singularity)到來,Ilya 則說不,AI 會擴散並在經濟中被感受到。Dwarkesh 說影響力似乎比模型智能所暗示的要小。

Ilya 在這裡是對的。Dwarkesh 說到目前為止的直接影響比模型智能所暗示的要小也是對的,但這需要時間。

  • Ilya 說,模型在評估(evals)上表現非常好,但經濟影響滯後。模型存在缺陷,而強化學習(RL)的選擇是從評估中獲得靈感的,所以評估具有誤導性,人類基本上是在對評估進行獎勵黑客(reward hacking)。考慮到它們的分數是透過長時間學習而非直覺獲得的,人們應該預期 AI 的表現會低於其基準測試。

AI 在通用實用性方面的表現絕對低於其基準測試,即使是那些對基準測試目標設定極少的公司也是如此。由於各種原因,整體能力仍然滯後。我們仍然存在影響力差距。

  • 那種超級天才學生?那種幾乎不需要練習特定任務就能表現出色的人?他們擁有「那種特質」。模型則沒有。

如果硬要說的話,模型擁有的是「反特質」。它們靠數量來彌補。確實如此。

情緒與價值函數

  • 人類在少得多的數據上進行訓練,但他們所知道的東西不知為何知道得「更深」,有些錯誤我們是不會犯的。此外,進化可能具有高度的魯棒性,例如那個著名的案例:一個人失去了所有情緒,但在許多方面情況依然良好。

人們非常強調「我絕不會」這種啟發式方法,因為 AI 有時會做出「同樣聰明的人」絕不會做的事,它們缺乏一種常識。

  • 那麼「情緒在機器學習中的類比」是什麼?Ilya 說是某種價值函數之類的東西,就像是在做某事時告訴你做得好還是不好的東西。

將情緒視為價值函數是有道理的,但它們比單純的標量(scalar)具有更高的信息密度,並且通常能指引你注意到被遺漏的事物。它們也確實充當了訓練的獎勵信號。

  • 我不認為除了「傳達情緒」之外,你還「需要」情緒做任何其他事——如果你在情境中具備足夠的意識,且不需要它們來進行梯度下降的話。

  • 然而在人類身上,如果你在原本依賴情緒提供信息或解決不確定性的地方剔除了情緒,你將會面臨大問題。

  • 我注意到一個顯而易見可以嘗試的方向,但如何實現卻不明確?

  • Ilya 對深度學習充滿信心。沒有它做不到的事!

我們在擴展什麼?

  • 數據?參數?算力?還有什麼?擴展預訓練比弄清楚還能做什麼更容易且更可靠。但即使 Gemini 3 從中榨取了更多價值,數據很快就會用完,所以現在你需要做點別的。如果你在這裡有 100 倍的規模,會有什麼不同嗎?Ilya 認為不會。

在某種程度上,這聽起來像是能力問題(skill issue),但沒錯,如果你不改變其他任何東西,我預計進一步擴展預訓練所帶來的幫助,將不足以抵消算力和時間成本的增加。

  • 現在強化學習(RL)的成本已經超過了預訓練成本,因為每次 RL 運行的成本都很高。是時候回到研究時代,嘗試有趣的事情並觀察會發生什麼了。

我注意到我對這種懷疑程度持懷疑態度,而且我懷疑背景中的研究模式從未停止過。進步將會持續。奇怪的是,每當有人說「我們仍然需要一些新想法或突破」時,總會隱含著這種情況可能再也不會發生的意味。

為什麼人類的泛化能力比模型好

  • 為什麼 AI 學習所需的數據比人類多得多?為什麼模型不能輕易掌握人類在一次性學習或背景中學到的所有東西?

人類擁有的數據比文本更豐富,所以比例並沒有看起來那麼糟,但主要是因為我們的 AI 學習技術相對原始,且在各方面數據效率低下。

  • 關於如何修復這個問題的完整答案屬於「我不免費做年薪一億美元的工作」。

  • 此外,LLM 在某些方面的學習能力比你意識到的要好得多,而且人類輕易學會的許多任務都以不明顯的方式被正則化(regularized)了。

  • Ilya 認為人類擅長學習主要不是因為某種複雜的先驗(prior),而且人類的魯棒性確實令人震驚。

我要澄清一下,不是因為某種複雜的「專門」先驗。在某些關鍵領域確實存在複雜的專門先驗,但那是建立在非常強大的學習函數之上的。

  • 人類並沒有 Ilya 或大多數人想像的那麼魯棒。

  • Ilya 建議,或許人類神經元消耗的算力比我們想像的要多。

直擊超智能

  • 擴展(Scaling)「吸乾了房間裡的空氣」,所以沒人做別的事。現在公司比想法還多。你需要一些算力來將想法變為現實,但不需要最大規模的算力。

你也可以將某些潛在技術視為「除非你有大規模算力,否則不值得嘗試」。

  • SSI 的算力全部投入研究,完全不投入推理,而且他們不打算開發產品。如果你在做不同的事情,就不必使用最大規模,所以他們籌集到的 30 億美元相對於競爭對手來說「非常耐用」。當然,OpenAI 每年在實驗上花費約 50 億美元,但關鍵在於你用它做了什麼。

這是 Ilya 在這個立場上不得不說的話,但其中確實有其道理。OpenAI 的實驗現在很大程度上是為了開發產品。這雖然能轉化為對超智能的追求,但效率不是很高。

  • SSI 將如何賺錢?專注於研究,錢自然會出現。

Matt Levine 已經回答過這個問題,那就是你透過成為一家充滿天才研究員的 AI 公司來賺錢,這樣人們就會給你錢。

  • SSI 畢竟還是在考慮開發產品,既是為了讓產品存在,也是因為時間線可能很長。

我的意思是,我想在某個時點,「我們是 AI 研究員,給我們錢」這種策略會開始顯得有點可疑,但我們不要操之過急。

  • 記住,Ilya,一旦你有了產品並試圖獲得收入,他們就會評估產品和你的收入。如果你沒有產品,你就是安全的。

SSI 的模型將從部署中學習

  • Ilya 說,即使有直達超智能的路徑,部署也會是漸進的,你必須先發布一些東西。他同意 Dwarkesh 關於持續學習(continual learning)重要性的觀點,它會「去成為」各種事物並學習,超智能並非一個完成的大腦。

學習有多種形式,包括持續學習,它可以是大腦內部的更新或其他方式等等。參見之前的播客討論。

  • Ilya 預期經濟增長會「迅速」,甚至是「非常迅速」。這將取決於不同地方設定的規則。

「迅速」對不同的人有不同的含義,聽起來 Ilya 心中沒有一個固定的增長率。我將其解讀為「比那群 2% 的傢伙更多」。

  • 這種願景似乎仍然認為人類會保持主導地位。為什麼?

對齊

  • Dwarkesh 重申了標準觀點:如果 AI 的學習能力僅僅「與人類一樣好」,但它們可以「合併大腦」,那麼瘋狂的事情就會發生。我們如何讓這種情況往好的方向發展?SSI 的計劃是什麼?

我的意思是,這只是最起碼的問題,但希望這足以說明問題?

  • Ilya 強調要提前且增量地部署。很難預測這在事前會是什麼樣子。「問題在於權力。當權力真的很大時,會發生什麼?如果很難想像,你會怎麼做?你必須展示那個東西。」

這感覺像是失敗主義,意即我們只能在看到並理解事物後才能做出反應。在我們知道變老是什麼感覺之前,我們無法為變老做計劃。在我們親眼看到 AGI/ASI 或 AI 擁有巨大權力之前,我們無法為其做計劃。

  • 但顯然到那時可能已經太晚了,你引導事態發展的大部分能力已經喪失,甚至可能全部喪失。

  • 這就是「得過且過」的策略,和我們一貫的應對方式一樣,基本上就是除了增量主義之外沒有任何計劃。我不喜歡這個計劃。我不高興成為其中的一部分。我不認為這是「安全超智能」(Safe Superintelligence)的案例。

  • Ilya 預計政府和實驗室將扮演重要角色,且實驗室在安全方面的協調會日益增加,就像 Anthropic 和 OpenAI 最近邁出的第一步那樣。我們必須弄清楚我們應該構建什麼。他建議讓 AI 關心一般的有情生命(sentient life)會比讓它關心人類「更容易」,因為 AI 本身將具有感知能力。

如果 AI 不特別關心人類,就沒有理由預期人類能保持控制或長久生存。

  • Ilya 希望最強大的超智能能以「某種方式」被「限制」以應對這些擔憂。但他不知道該怎麼做。

我也不知道該怎麼做。目前還不清楚這個想法是否合乎邏輯。

  • Dwarkesh 問,超智能要變得「更超強」,「頂部空間」還有多少?也許它只是學習得快,或者擁有更大的策略、技能或知識池?Ilya 說,肯定會非常強大。

唉。顯然「頂部空間」還有很多,人類遠未達到智能的極限,也遠未獲得智能所能提供的大部分好處。在這一點上,仍然有這麼多人不意識到或不接受這一點,這反而強化了一個更聰明的實體能變得多麼優秀。

  • Ilya 預計這些超智能會非常龐大,指物理上的龐大,並且會有幾個超智能大約在同一時間誕生,理想情況下它們可以「在某些方面受到約束,或者存在某種協議之類的東西」。

AI 之間的協議不太可能包含我們。是的,功能性約束會很好,但這就是目前為止為尋找實現方法所投入的思考水平。

  • 很多事情一直保持著驚人的接近,但很大程度上是因為與其說領先者在複合增長並加速,不如說目前追趕變得更容易了。

  • Ilya:「超智能的擔憂是什麼?解釋這種擔憂的一種方式是什麼?如果你想像一個足夠強大的系統,真的足夠強大——你可以說你需要做一些明智的事情,比如以非常一心一意的方式關心有情生命——我們可能不會喜歡那個結果。事實就是這樣。」

嗯,沒錯,標準的 Yudkowsky 觀點:我們能命名的任何固定目標,結果都不會好。

  • Ilya 說也許我們不構建 RL 智能體(agent)。人類是半 RL 智能體,我們的情緒讓我們在一段時間後改變獎勵並追求不同的獎勵。如果我們繼續做現在正在做的事,它很快就會停滯,永遠不會成為「那個東西」。

在任何人的「繼續做我們正在做的事」先驗中,都應該包含一定程度的尋找創新和改進,我認為這能帶我們走得很遠,並包含許多單獨來看成功概率低但能產生實質差異的創新。在某種程度上,如果沒有驚喜,我們確實會「停滯」,但不清楚這是否需要整體上的驚喜。

  • 有沒有可能事情真的停滯了,我們永遠看不到「那個東西」?是的,有可能。我認為長期保持這種狀態的可能性極低,但確實有可能。即便如此,在實踐上仍有一段很長的路要走。

  • 情緒,特別是厭倦感以及正面情緒隨重複而消退,確實是我們推動自己進行探索和多樣化的方式之一。這是它們做的許多事情之一,沒錯,如果我們沒有它們,我們就需要別的東西來取代它們的位置。

  • 在許多情況下,當情緒似乎不足以防止模式崩潰(mode collapse)時,我確實使用邏輯來取代它。

  • 「關於導致對齊困難的原因,你可以說的一點是,你學習人類價值觀的能力是脆弱的。然後你優化它們的能力也是脆弱的。你實際上是學習去優化它們。難道你不能說,『這些不都是不可靠泛化的例子嗎?』 為什麼人類看起來泛化得好得多?如果泛化能力好得多會怎樣?在這種情況下會發生什麼?影響會是什麼?但這些問題目前仍然無法回答。」

聽到 Ilya 重申這些 Yudkowsky 的入門觀點很有趣。

  • 人類實際上泛化得也沒那麼好。

  • 如何思考 AI 發展順利會是什麼樣子?Ilya 回到「關心有情生命的 AI」作為第一步,但隨後提出了一個更好的問題:長期的均衡狀態是什麼?他注意到他不喜歡自己的答案。也許每個人都有一個聽從自己差遣的 AI,這很好,但缺點是 AI 會去做賺錢或倡導之類的事情,而人只會說「繼續保持」,但他們並不是參與者。這很危險。人們變成了部分 AI,Neurolink++。他不喜歡這個解決方案,但這至少是一個解決方案。

承認目前沒有已知的偉大解決方案,這點值得高度肯定。

  • 指出一個重大缺陷——即人類停止實際做事,因為 AI 做得更好——這點也值得肯定。

  • 這裡的均衡是,越來越多的事情被移交給 AI,包括行動和決策。不這樣做的人就會落後。

  • 這裡的均衡是,AI 被賦予越來越多的自主權、更多的控制權、被置於更好的位置、擁有越來越多的權力和財富份額等等,即使涉及的一切都是完全自願且「沒有出錯」。

  • Neurolink++ 並不能實質性地解決這裡的任何問題。

  • 求解均衡。

  • 情緒的悠久歷史是對齊的成功嗎?也就是說,它允許大腦從「與更成功的人交配」轉向靈活地定義成功,並普遍適應新情況。

這是一個非常複雜的結果,你不覺得嗎?

  • 在某些方面,這些情緒是靈活且具適應性的,也是成功的,並且成功實現了對齊目標(包容性遺傳適應性);但在另一些方面,情緒顯然正在辜負人類。

  • 如果 ASI 在這種意義上的對齊程度和我們差不多,那我們就完蛋了。

  • Ilya 說進化如何編碼高層次慾望是很神秘的,但它給了我們所有這些社交慾望,而且它們進化得相當晚。Dwarkesh 指出那是你在生命中學到的慾望。Ilya 指出大腦有分區,有些東西是硬編碼的,但如果你移除一半大腦,分區會移動,社交方面的東西是非常可靠的。

我不打算假裝理解這裡的細節,儘管我可以推測。

「我們完全是一家研究時代的公司」

  • SSI 調查想法以觀察它們是否有前途。他們做研究。

  • 關於他的聯合創始人離職:「對此,我只想提醒一些可能被遺忘的事實。我認為這些提供背景的事實解釋了情況。背景是我們當時正以 320 億美元的估值進行融資,然後 Meta 介入並提出收購我們,我拒絕了。但我的前聯合創始人在某種意義上答應了。結果,他也得以享受大量的短期流動性,而且他是唯一一位從 SSI 加入 Meta 的人。」

我喜歡他這種表達方式。沒錯。

  • 「區分 SSI 的主要特點是其技術路徑。我們有一種我認為有價值的不同技術路徑,並且我們正在追求它。我堅持認為最終會出現策略的趨同。我認為會出現策略趨同,在某個時點,隨著 AI 變得更強大,每個人都會或多或少清楚策略應該是什麼。它應該是類似於,你需要找到某種互相交談的方式,並且你希望你的第一個真正的超智能 AI 是對齊的,並且以某種方式關心有情生命、關心人類、民主,或者是這些的某種組合。我認為這是每個人都應該努力達到的條件。這就是 SSI 正在努力的方向。我認為到那時,如果現在還沒開始的話,所有其他公司都會意識到他們也在朝著同樣的目標努力。我們拭目以待。我認為隨著 AI 變得更強大,世界將真正改變。我認為事情會變得非常不同,人們的行為也會非常不同。」

對我來說,這對於策略中對齊部分的願景顯得非常淺薄,但它確實涵蓋了令人欽佩的整體戰略願景比例,可以說涵蓋了大部分?

  • 遺憾的是,「哦,隨著我們走得更遠,人們會變得更負責任、更合作」這種想法,似乎與我們目前觀察到的情況不符。

  • Ilya 後來澄清他特指對齊策略的趨同,儘管他也預期技術策略的趨同。

  • 上述陳述是對齊目標的趨同,但這並不意味著對齊策略的趨同。事實上,這並不意味著存在一個可行的對齊策略。

  • Ilya 對於能夠學習並超越人類的系統的時間線預測?5 到 20 年。

  • Ilya 預測,當有人發布那個東西時,那將會是信息,但它不會教別人如何做那個東西,儘管別人最終會學會。

  • 什麼是「美好的世界」?我們擁有強大的類人學習者,或許還有窄域 ASI,公司賺錢,並透過專業化、不同的生態位進行競爭。累積的學習和投資創造了專業化。

這太令人沮喪了,因為它沒有解釋為什麼你會預期事情會這樣發展,或者為什麼這個世界會變好,或者任何實質性的東西?如果答案很明確,或者至少看起來很有可能,那也就算了,但我完全不這麼認為。

  • 這感覺像是在聲稱人類確實接近智能和可學習內容的上限,只是我們在各方面受到阻礙,而 AI 可以解除這些阻礙,但這仍然讓它們以看起來可辨識的人類方式運作,且不會將我們排擠出去?但我再次認為我們不應該對此抱有期待。

  • Dwarkesh 指出目前的 LLM 很相似,Ilya 說也許數據集並不像看起來那樣互不重疊。

相反,我一直假設它們大多使用相同的基礎數據,然後從那裡進行不同的過濾和進程?並不是說完全沒有獨特數據,而是大多數公司都擁有「大部分數據」。

  • Dwarkesh 建議,因此 AI 的多樣性將低於人類團隊。我們如何獲得「有意義的多樣性」?Ilya 說這是因為預訓練,而後訓練(post training)是不同的。

在這種「多樣性」有用的範圍內,透過努力似乎很容易獲得。我懷疑這大多是另一種創造人類「精神慰藉」(copium)的方式。

  • 那使用自我博弈(self-play)呢?Ilya 注意到它允許僅使用算力,這非常有趣,但它僅適用於「開發一套特定的技能」。談判、衝突、某些社交策略、策略制定之類的東西。然後 Ilya 自我修正,提到了其他形式,如辯論、證明者-驗證者(prover-verifier)或 LLM 作為裁判的形式,這是智能體競爭的一個特例。

我認為這裡有很多大有可為且尚未探索的空間,在此不便多言。

研究品味

  • 什麼是研究品味?Ilya 是如何想出許多大主意的?

這很難摘錄且似乎很重要,因此全文引用以結束本節:

我可以就我自己談談。我認為不同的人有不同的做法。引導我個人的一件事是關於 AI 應該是什麼樣子的審美,透過思考人是什麼樣的,但要正確地思考。錯誤地思考人是什麼樣的很容易,但正確地思考人意味著什麼?

我給你舉幾個例子。人工神經元的想法直接受到大腦的啟發,這是一個偉大的想法。為什麼?因為你說大腦有所有這些不同的器官,它有褶皺,但褶皺可能並不重要。為什麼我們認為神經元重要?因為有很多神經元。這感覺是對的,所以你想要神經元。你想要某種局部學習規則來改變神經元之間的連接。大腦這樣做感覺是合理的。

分佈式表示的想法。大腦對經驗做出反應,因此我們的神經網絡應該從經驗中學習。大腦從經驗中學習,神經網絡也應該從經驗中學習。你有點像在問自己,某件事是基本的還是非基本的?事物應該是什麼樣子的。

我認為這在很大程度上引導著我,從多個角度思考並尋找近乎美感、美感與簡潔。醜陋,沒有醜陋的餘地。它是美感、簡潔、優雅、來自大腦的正確啟發。所有這些東西需要同時存在。它們存在的程度越高,你就越能對自上而下的信念充滿信心。

自上而下的信念是在實驗與你相悖時支撐你的東西。因為如果你一直信任數據,嗯,有時你可能在做正確的事,但存在一個錯誤(bug)。但你不知道有錯誤。你如何判斷有錯誤?你如何知道應該繼續調試還是得出結論說方向錯了?這就是自上而下的力量。你可以說事情必須是這樣的。像這樣的東西必須有效,因此我們必須繼續前進。這就是自上而下,它基於這種多方面的美感和大腦的啟發。

我需要更多地思考是什麼構成了我版本的「研究品味」。它肯定有實質性的不同。

播客報導到此結束,進入額外章節,放在這裡似乎比放在週報裡更好,因為它涵蓋了許多相同的主題。

額外內容:Dwarkesh Patel 談近期的 AI 進展

Dwarkesh Patel 提供了他對近期 AI 進展的看法,他注意到當我們得到他所謂的「真正的 AGI」時,事情會變得極度瘋狂,但他認為這距離完全實現還有 10 到 20 年。在那之前,他對我們能實現多少收益持保留態度,但這裡的懷疑態度是高度相對的。

Dwarkesh Patel:我很困惑為什麼有些人時間線很短,同時又看好 RLVR(強化學習驗證)。如果我們真的接近類人學習者,這種方法就註定失敗。

……要麼這些模型很快就會以自我引導的方式在工作中學習——這使得所有這些預先烘焙變得毫無意義——要麼它們不會——這意味著 AGI 並非迫在眉睫。人類不需要經歷一個特殊的訓練階段,在那裡他們需要排練他們可能永遠會用到的每一款軟件。

哇,看看這些目標點是如何移動的(朝著所有不同的方向)。Dwarkesh 注意到空頭一直在對多頭變換標準,但他認為這是合理的,因為目前的模型符合舊目標但沒拿到分數,也就是說它們沒有像你預期的那樣自動化工作流程。

總的來說,我擔心預期模式已經變成了「中位數 50 年 → 20 → 10 → 5 → 7,一旦我聽說有人說 3 年,哦,那沒什麼好看了,你可以停止擔心了。」

在這種情況下,看看這個轉變:一個「真正的」(他的用語)AGI 現在不僅必須具備類人的任務執行能力,還必須是一個具有人類效率的學習者。

這意味著 AGI 和 ASI 是同一回事,或者至少會接踵而至。一個在從數據中學習方面具有人類效率的 AI,結合 AI 的其他優勢(包括吸收比人類多出幾個數量級的數據),將會是一個超智能,並絕對會從那裡引發遞歸式的自我改進。

是的,如果這就是你的意思,那麼 AGI 就不是思考時間線的最佳概念,超智能才是更好的討論目標。然而 Sriram Krishnan 反對使用其中任何一個

像所有概念抓手或虛假框架一樣,它是精確度不足且超載的,但人們對它的直覺會忽略這件事是可能的,甚至在你直截了當地說「超智能」時也是如此;我不敢想像如果你連說都不說,他們會如何錯失這個概念。我認為這正是很多人不想說這個詞的動機,這樣人們就可以假裝不會出現任何在實質意義上比我們更聰明的東西,從而我們可以停止為此擔心或做計劃。

事實上,這正是 Sriram 的意圖,如果你看他這裡的帖子,他聲稱「我們不在涉及此類事物的時間線上」,將擔憂斥為「科幻」或哲學,轉而談論「我們試圖構建什麼」。重要的是實際構建了什麼,而不是我們的意圖,不,這些概念都沒有失效。我們「沒有起飛的證據」,意思是指我們目前尚未處於快速起飛階段,但除了已經處於起飛階段(那時再做什麼都太晚了)之外,還有什麼能構成這種「證據」呢?

Sriram Krishnan:……最重要的是,它引發了恐懼——這與科幻和哲學中的歷史用法有關(想想《2001太空漫遊》、《雲端情人》,任何涉及奇點的東西),而這與我們實際所處的技術樹毫無關係。這使得每一次 AI 討論都極其容易被擬人化並偏向假設性的討論。

Joshua Achiam(OpenAI 使命對齊負責人):我大部分不同意,但我認為這是對論述的一個很好的貢獻。我不同意的地方:我確實認為 AGI 和 ASI 都捕捉到了事物發展方向的某些真實情況。我同意的地方:缺乏公認的定義百分之百造成了許多不必要的挑戰。

認為「假設性討論」(即未來的能力及其邏輯後果)是「偏離主題」,或者認為任何此類事物都是「科幻或哲學」,就是否認了為未來能力做計劃或以真實方式思考未來的想法。Sriram 本人也認為它們只有 10 年之遙,區別在於他沒有加上 Dwarkesh 的「那太瘋狂了」,反而似乎在有效地說「那是未來人的問題,忽略它」。

Seán Ó hÉigeartaigh:我一直注意到這一點,但我確實認為我們正在進行的許多最激烈的政策辯論,其基礎是科學觀點上的分歧:我們是否 (i) 在未來十年內正朝著 AGI/ASI 領域邁進,能夠取得相當於發現廣義相對論的科學成就(Hassabis 的例子),或者 (ii) 應該預期 AI 是一種正常的技術(Narayanan & Kapoor 的定義)。

我老實說不知道。但在信奉者(略微)延長時間線的基礎上,當進步顯然在繼續且史無前例的資源正投入其中時,就排除 (i) 對我來說似乎為時過早。而在對 (ii) 的強烈預期下制定政策也為時過早。(我也認為在對 (i) 的強烈預期下制定政策為時過早)。

但我們正進入這樣一個時期:圍繞世界觀 (ii) 的政策將在各個地方與世界觀 (i) 倡導者在放手一搏時會頒布的政策產生衝突。在未來的十年裡,我希望我們能找到一條在兩者之間航行的路徑,而不是根據當時哪種世界觀佔據主導地位而劇烈擺動。

Sriram Krishnan:這確實有道理。

這將其描繪為兩種觀點,我會說你至少需要三種:

  • 10 年內很可能出現 AGI/ASI 領域的東西。

  • 10 年內不太可能出現 AGI/ASI 領域的東西,但在 10 到 20 年內高度可能,在那之前 AI 是一種正常的技術。

  • AI 是一種正常的技術,且我們知道它將無限期保持如此。我們可以像 AGI/ASI 風格的技術永遠不會發生那樣進行監管和規劃。

我認為 #1 和 #2 都是高度合理的立場,只有 #3 是不合理的,同時要注意如果你相信 #2,你仍然需要給予 #1 一定的權重。也就是說,如果你認為大概需要 10 年,那麼你或許可以幾乎排除 2027 年實現 AGI,且你認為 2031 年不太可能,但你不能聲稱 2031 年「不可能發生」。

需要警惕的混淆是 #2 和 #3。這是非常不同的立場。然而 AI 行業的許多人及其政治倡導者,正是在進行這種混淆。他們斷言「#1 是錯誤的,因此 #3 成立」,當被要求提供細節時,他們會闡述主張 #2,然後又回去試圖主張 #3 並基於 #3 行動。

最瘋狂的是,Sriram 選擇排除的名單中包括電影《雲端情人》(Her)。《雲端情人》做出了許多非常好的預測。它是 ChatGPT 及其語音模式的關鍵靈感來源,以至於因為他們幾乎複製了 Scarlett Johansson 的聲音而面臨訴訟威脅。她正在發生。最好相信科幻故事,因為你正生活在其中。

目前的技術中沒有任何理由讓人認為《2001太空漫遊》式的事物或奇點不會發生,或者認為我們應該相對減少對 AI 的擬人化(對當前 AI 和未來 AI 的正確擬人化程度,重要的一點是都不為零,且重要的一點是都不是 100%,而這兩種錯誤都經常發生)。事實上,Dwarkesh 在這篇被 Sriram 稱讚的帖子中,事實上預測了起飛和奇點,只是 Dwarkesh 認為這需要 10 到 20 年的時間框架才能開始。

現在,回到 Dwarkesh。

這種「教 AI 人類最想要的特定任務」的過程,是模型被 Teortaxes 稱為「用途極大化」(usemaxxed)的核心實例。大量的精力投入到了特定的改進,而不是推進通用智能。是的,這是反對極短時間線的證據。正如 Dwarkesh 所指出的,這也是支持短期內會出現大量平凡效用(包括加速研發的能力)的證據。否則還有什麼能證明如此大規模的「側面」努力是合理的呢?

正如他所指出的,還有效率論點。許多人想要的技能應該被烘焙到核心模型中。Dwarkesh 反駁說,有很多技能是特定實例的,需要崗位上或持續的學習,他一段時間以來一直強調這一點。我仍然看不出矛盾之處,或者為什麼存儲並在需要時提供這些知識會那麼難,即使 LLM 很難永久學會它。

我強烈不同意他關於「經濟擴散滯後是對能力缺失的自我安慰(cope)」的說法。我同意許多極具價值的技術能力目前尚未具備。其中一些是因為缺乏適當的腳手架、擴散或情境,從根本上說是人類的「能力問題」。另一些則是基礎性的缺陷。但認為 AI 無法勝任比目前要求它們做的多得多的任務,這顯然是錯誤的?

引用了 Steven Byrnes

Steven Byrnes:新技術需要很長時間才能融入經濟?那麼問問你自己:高技能、有經驗且具創業精神的移民人類是如何設法立即融入經濟的?一旦你回答了這個問題,請注意 AGI 也將能夠做到這些事情。

同樣,這是說 AGI 在它目前最弱的地方將會和人類一樣強,並且不需要我們做出調整就能利用。不,它說得更多,它還說我們不會在它的道路上設置各種監管、法律和文化障礙,至少不會以任何實質性的方式。

如果 Dwarkesh 所思考的 AGI 真的存在,那麼它將是一個 ASI,人類很快就會完蛋。

我也強烈不同意人類勞動力「訓練起來不費勁」(不過,為他出色地使用「shleppy」一詞加分)。我培訓過人類,也作為人類被培訓過,這完全是費勁的(shleppy)。我同意,不像目前的 AI 在遇到其能力範圍之外的事情時那麼費勁,但除了它們自己非常狹窄的專長領域外,到處都令人討厭地費勁。

這是另一個「天哪,看看那些目標點」的例子:

Dwarkesh Patel:它揭示了我與那些預期未來幾年會產生變革性經濟影響的人之間的一個關鍵分歧。

未來幾年的變革性經濟影響將是一件了不得的事情。

建立一個自定義訓練管道來識別特定實驗室準備載玻片方式下的巨噬細胞外觀,然後再為下一個實驗室特定的微型任務建立另一個管道,這並非淨生產性的。你真正需要的是一個能像人類一樣,在工作中從語義反饋中學習並立即泛化的 AI。

嗯,不,現在可能不是,但 Claude Code 在創建訓練管道方面正變得相當出色,整個過程在這方面相當標準,所以我並不相信我們距離做到這一點還有那麼遠。這是一個例子,說明即使在小規模、非遞歸的層面上,足夠的「AI 研發」自動化也能改變使用案例。

每天,你都必須做一百件需要判斷力、情境意識以及在工作中學到的技能和背景的事情。這些任務不僅因人而異,甚至同一個人在不同日子也會有所不同。僅僅透過烘焙一些預定義的技能,是不可能自動化哪怕一份工作的,更不用說所有工作了。

嗯,我的意思是,對於一組足夠廣泛、水平足夠高的技能,這當然是可能的,特別是如果這包括元技能(meta-skills)且你可以訪問額外的情境。為什麼不可能呢?它肯定能迅速自動化許多工作的大部分內容,是的,我已經開始間接地自動化我工作的一部分(比如讓 Claude 為我編寫大多是非 AI 的工具來完成它,並在它們出錯時進行調整)。

不過,再給它幾年時間,Dwarkesh 就和我站在同一陣線了:

事實上,我認為人們真的低估了真正的 AGI 會是多麼大的一件事,因為他們只是在想像當前體制的延續。他們沒有想到服務器上有數十億個類人智能,它們可以複製並合併所有的學習成果。而且要明確的是,我預計這(即真正的 AGI)會在未來一二十年內發生。那太瘋狂了!

沒錯。這種「真正的 AGI」太瘋狂了,他預計 10 到 20 年內實現的時間線也太瘋狂了。更多的人需要在這類陳述的末尾加上「那太瘋狂了」。

Dwarkesh 隨後更多地談到了持續學習。他在這裡的立場沒有改變,我的反應也沒有改變——即這並非必需,我們可以透過其他方式獲得好處。他說持續學習的逐漸進展意味著這對先發者來說不會是「比賽結束」,但如果這是拼圖的最後一塊,為什麼不會呢?

Lesswrong

相關文章

  1. 對 Dwarkesh Patel 2026 年與 Dario Amodei 播客的分析

    2 個月前

  2. Ilya Sutskever:我們正從擴展時代邁向研究時代

    YouTube · 5 個月前

  3. 對 Dwarkesh Patel 2026 年與 Elon Musk 播客及近期 Elon Musk 相關事件的分析

    2 個月前

  4. AI對齊進階導論:2. AI可能學到什麼價值觀?— 4個關鍵問題

    4 個月前

  5. 我的AGI安全研究:2025年回顧與2026年計畫

    4 個月前