AlphaGo 之父認為人工智慧正走向錯誤的道路

AlphaGo 之父認為人工智慧正走向錯誤的道路

Wired - AI·

大衛·席爾瓦擁有一家價值十億美元的新公司,旨在打造人工智慧超級學習者。

大衛·席爾瓦(David Silver)曾讓世界首度窺見超級智能的雛形。

2016 年,他在 Google DeepMind 開發的 AI 程式 AlphaGo,以一種遠超模仿的精湛技藝,自學並精通了以難度著稱的圍棋。

此後,席爾瓦創立了自己的公司 Ineffable Intelligence,旨在構建更通用形式的 AI 超級智能。席爾瓦表示,公司將專注於強化學習(reinforcement learning),即讓 AI 模型透過試錯來學習新能力。其願景是創造出在多個領域超越人類智能的「超級學習者」。

這種方法與大多數 AI 公司的計劃截然不同,後者主要透過挖掘大型語言模型(LLM)的程式碼編寫與研究能力來構建超級智能。

席爾瓦在倫敦辦公室接受《連線》(WIRED)雜誌採訪時表示,他認為目前的主流方法將會失敗。儘管 LLM 令人驚嘆,但它們是向人類智能學習,而非建立屬於自己的智能。

「人類數據就像是一種提供驚人捷徑的化石燃料,」席爾瓦說。「你可以將自主學習的系統視為一種再生燃料——它可以永無止境地持續學習,沒有上限。」

我曾與席爾瓦見過幾次面,儘管他發表了這番宣言,但他給我的印象始終是 AI 領域中最謙遜的人之一。有時在談論他認為愚蠢的想法時,他會露出頑皮的笑容。但此刻,他的表情極其嚴肅。

「我將我們的使命視為與超級智能的『第一次接觸』,」他說。「我所說的超級智能是指某種不可思議的東西。它應該能為自己發現科學、技術、政府管理或經濟的新形式。」

五年前,這樣的使命聽起來或許很荒謬。但現在,科技公司的執行長們經常談論機器將超越人類智能並取代整類勞動者。那種認為某種新技術突破可能解鎖超人類 AI 能力的想法,近期催生了一大批估值數十億美元的新創公司。

Ineffable Intelligence 至今已籌集了 11 億美元的種子輪資金,估值達 51 億美元——以歐洲 AI 標準衡量,這是一筆巨款。席爾瓦還從 Google DeepMind 和其他前沿實驗室招募了頂尖的 AI 研究員加入他的事業。

席爾瓦表示,他將把從 Ineffable Intelligence 股權中獲得的所有收益捐給慈善機構——如果他成功了,這筆金額可能高達數十億美元。

「建立一家專注於超級智能的公司是一項巨大的責任,」他告訴我。「我認為這必須是為了全人類的利益而做,我從 Ineffable 賺到的任何錢都將捐給高影響力的慈善機構,以挽救盡可能多的生命。」

全力專注

席爾瓦小時候在一次西洋棋比賽中結識了 Google DeepMind 的執行長德米斯·哈薩比斯(Demis Hassabis),兩人後來成為終身的摯友與合作夥伴。

席爾瓦離開 Google DeepMind 後,兩人仍保持密切聯繫,他離開的原因僅僅是想開闢一條全新的道路。「我覺得擁有一家百分之百專注於這種方法的精英 AI 實驗室非常重要,」他說。「而不是讓它僅僅成為另一個致力於 LLM 機構的一個小角落。」

席爾瓦說,透過一個簡單的思想實驗就能看出基於 LLM 方法的局限性。想像一下回到過去,在一個相信「地平說」的世界發布一個大型語言模型。他表示,由於無法與現實世界互動,該系統即使不斷改進自己的程式碼,仍會是一個堅定的地平論支持者。

然而,一個能夠自主學習世界知識的 AI 系統,則可以做出自己的科學發現。

席爾瓦將 AI 的現狀比作達爾文之前的生物學理解。「當時有很多人試圖理解生命是什麼,但在達爾文出現之前,沒有人能提出一個真正解釋生命本質的統一觀點,」他說。

Ineffable Intelligence 面臨的大問題是,如何從圍棋這種受限的世界,跨越到現實世界那種難以想像的複雜性。

席爾瓦表示,他看到了一種實現路徑,即將 AI 代理(agents)置於模擬環境中。他對這些模擬環境的具體樣貌守口如瓶,但表示這種方法將允許代理學習如何達成目標並相互協作。

Lightspeed Ventures 的聯合創始人兼合夥人拉維·姆哈特雷(Ravi Mhatre)是 Ineffable Intelligence 的支持者,他稱席爾瓦是「世界級的研究員」,其職業生涯「基本上就是一個完整且連貫的論點,證明在沒有人類先驗知識的情況下也能擴展智能。」

然而,以這種方式構建超級智能可能會引發新問題,如果產生的 AI 找到了與人類價值觀或利益不一致的優化問題解決方案。

席爾瓦表示,在模擬環境中開發這項技術會有所幫助,因為可以觀察 AI 代理對待其他對象(包括較低智能體)的行為方式。「我們實際上可以看到從中演化出什麼樣的行為,」他說。

姆哈特雷表示,他曾就安全問題向席爾瓦施壓,他相信席爾瓦的方法可能提供一種更好的方式來構建對齊(aligned)的 AI,因為它不那麼依賴於向人類行為學習。席爾瓦「非常專注於如何構建高度智能且對我們所追求的一切都良性或和諧的系統,」姆哈特雷說。

沒有捷徑

電腦有朝一日可能像人類一樣從經驗中學習的想法,可以追溯到電腦科學的早期,包括艾倫·圖靈(Alan Turing)的著作。用於實現這一目標的演算法方法即為所謂的強化學習。

席爾瓦長期以來一直相信,這種方法才是構建超人類機器智能的真正關鍵。席爾瓦的導師之一里奇·薩頓(Rich Sutton)與其長期合作者安德魯·巴托(Andrew Barto),因在開發早期強化學習演算法方面的貢獻,於 2025 年獲得了圖靈獎。

目前的 AI 領域更專注於 LLM 以及一種不同的訓練方法,即向 AI 演算法餵入從書籍、網頁和其他來源抓取的大量人類文本。

然而,強化學習在創造當今的 AI 系統中也發揮了重要作用。它透過人類回饋來塑造 LLM 的輸出,從而使構建聊天機器人成為可能。最近,它還讓基於 LLM 的 AI 系統學會了解決更複雜的問題,尤其是在數學和程式設計領域。

仁慈的創造者

通往超級智能的競賽已變得日益瘋狂,大公司斥資數十億美元建設基礎設施並聘請人才。有些人認為一場巨大的泡沫正在醞釀。

投資該新創公司的紅杉資本(Sequoia Capital)合夥人索尼婭·黃(Sonya Huang)表示,Ineffable Intelligence 脫穎而出是因為席爾瓦卓越的過往紀錄和他願景的純粹性。

「只有極少數——不到五個人——做出了真正奠基性的工作,」黃說。「大衛就是其中之一。」

黃表示,現在 AI 公司可以獲得的巨大算力以及模擬技術日益增長的複雜性,讓她對席爾瓦的方法深信不疑。「我從根本上同意他關於我們將在哪裡找到下一個重大突破的論點,」她說。

席爾瓦既是頂尖研究員,而且坦白說,他不是個傲慢的人,這種名聲在他招募人才時可能會成為優勢。「我認為這對研究人員來說非常重要,」黃說。

曾在 Google DeepMind 與席爾瓦共事的安德魯·戴(Andrew Dai)也表示贊同。「他是一個非常聰明的人,總能提出新的想法,」他說。「而且,是的,他也非常友善。他尊重他人的意見,並給予研究人員自由。」

對席爾瓦來說,科學本身就應該具有吸引力。「就純科學而言,我認為這是我們可能進行的最重要的科學使命,」他說。

Wired - AI

相關文章

  1. Andrej Karpathy:關於 Richard Sutton 與大語言模型時代下「慘痛教訓」的反思

    Andrej Karpathy · 7 個月前

  2. Humans& 認為協調是 AI 的下一個前沿,並正在建立模型來證明這一點

    Techcrunch · 3 個月前

  3. AI模型開始透過自問自答來學習

    4 個月前

  4. 機器是否終將具備智慧?

    Microsoft Research · 大約 1 個月前

  5. 2026年中國頂尖AI對話

    Hacker News · 3 個月前

其他收藏 · 0