未來AI能力否認的起源與危險

Lesswrong·

我擔心大眾對 AI 的反感可能演變成一種陰謀論式的能力否定,這將使討論生存風險的努力失效。我認為我們應該更多地強調 AI 的核心能力,而非僅僅談論生存風險,以應對這種潛在的趨勢。

在理性主義者的圈子裡,存在一個相當明確的共識:無論人工智慧(AI)的最終影響為何,其核心都是一種具備強大能力的技術,將對世界產生巨大的影響。

但在「一般大眾」的圈子裡,情況則大不相同。雖然較不明確,但確實存在一種共識,即 AI 的最終影響將是負面的,而對於 AI 作為一種技術的能力,則缺乏一致的看法。

我認為很有可能出現一種與理性主義者背道而馳的趨勢:人們開始不相信 AI 作為一種技術的能力,最終甚至演變成一種陰謀論式的否認,連 AI 目前已具備的能力都不承認。也就是說,一般大眾和政策制定者可能會否認那些在熟悉該技術的人眼中完全無庸置疑的能力。我認為這種情況是有可能發生的,矛盾的是,即使在 AI 引發社會動盪、且在幾乎任何一種「起飛」情境下,這種情況都可能出現。

如果許多人開始相信這一點,後果將極其嚴重:關於生存風險(existential risk)的爭論大多基於「AI 具備強大能力」這一假設,因此對於不認同這一點的人來說,這些論點將毫無說服力。我認為我們應該更多地強調 AI 的核心能力,並減少對生存風險(x-risks)的討論。

在這篇文章中,我將解釋這種「能力否認」(capability denial)是如何以及為何會發展起來的、目前已在發展中的微弱證據,以及我們可以對此做些什麼。


非理性

首先,我想提醒一下(雖然可能沒人需要提醒):「一般人到底能有多不理性?」

我有個壞習慣,喜歡關注陰謀論者的鬧劇。德高望重的「平地論」(flat earth)社群就貢獻了不少。2024 年,有人出資讓幾位知名的平地論者飛往南極洲,親身體驗「午夜太陽」——這是大多數平地論理論都無法合理解釋的現象,因此他們通常選擇否認其存在。

值得讚揚的是,有些人的信念確實因此改變了。其中一人的 YouTube 新頭像就是他以前的平地論標誌,但上面畫了一個大大的紅叉。其他人則沒那麼容易被說服,認為 24 小時日照可以與平地論調和,但他們都承認了這個現象是真實存在的。

不出所料,這對廣大社群的信念幾乎沒有產生任何影響。這次旅行的攝影角度被廣泛分析,用以證明這一切都是騙局,那些去過並改變信念的人從一開始就是被安插的內鬼等等;而隨著舊偶像的「徹底背叛」,新的領袖人物又應運而生。

人們相信平地論並非因為證據。他們相信是因為這讓他們顯得與眾不同,能夠看透別人看不見的真相,獲得隱藏的知識。這是一種非常自然且人性化的行為。伴隨著隱藏知識而來的,還有一些可能令人嚮往的社交或社群效應。就平地論而言,據我觀察,除此之外真的沒什麼深意了。

與我所假設的「能力否認」更貼切的類比是「氣候變遷否認論」。這裡同樣存在隱藏知識及其社群的誘惑,但也包含守護傳統的元素(這在平地論中存在但較弱),更重要的是,人們想要消耗大量能源、駕駛大卡車、頻繁搭乘飛機,而不必去擔心碳排放這種「蠢事」。

能力否認

作為一種偽陰謀論,「能力否認」具有很大的發展潛力:有許多因素可能導致人們持有這種信念。

  • 大多數人對「AI」的體驗就是讓免費版的 ChatGPT 幫他們寫首詩之類的。他們並不知道目前的系統已經在蛋白質折疊、癌症檢測或軟體開發等領域產生了巨大影響,他們也沒有探索過自己熟悉且能接觸到的技術能力。
  • AI 實驗室現在對開出誇大承諾卻無法兌現早已習以為常,因為他們有獲取投資的誘因。
  • 目前的一些 AI 系統確實只是一堆「小花招」。現在的人形機器人幾乎無法完成人類能做的任何任務,但它們會翻筋斗、跳躍和跳舞。
  • AI 被視為許多工作的威脅和競爭者。
  • AI 越來越多地與以下事物聯繫在一起:
    • 低質量的「垃圾內容」(slop)媒體。
    • 浪費大量的能源和水資源。
  • 如果你普遍討厭 AI,那麼認為它「無能」會比承認「好壞」與「影響力大小」是兩個獨立維度要簡單得多。

在我看來,最後一點最具份量,儘管它最不理性。非常多的人相信,他們不喜歡的事物在各方面都是糟糕的,沒有任何可取之處或正面影響的跡象。其他一些觀點雖然並未嚴格暗示 AI 無能,但只要將其與整體的「惡」聯繫起來就足夠了。

也許舊金山的情況不同,但在我居住的一個相當普通的美國大城市,人們真的不喜歡 AI。在最近的一項皮尤研究中心(Pew Research)國際民調中,平均而言,表示對 AI「憂慮多於興奮」的人數是「興奮多於憂慮」的兩倍以上。在美國,這一比例在所有受訪國家中並列最高,憂慮者是興奮者的 5 倍。如果我是在和非科技圈的人交談,我幾乎可以肯定他們對 AI 的看法。在非科技人聚集的公共場所,我聽過無數次關於 AI 有多爛、多糟糕的對話,卻從未聽過關於它有多酷、多好的討論。我認為理性主義者往往處於如此隔絕的同溫層中,以至於他們可能沒有意識到大眾的反 AI 情緒有多麼強烈。

因此,無論 AI 對中產階級勞工的實際影響為何,那個人都強烈討厭 AI。而且,除非我們突然進入烏托邦,否則 AI 似乎也不會特別讓他們的生活變得更好。如果 AI 奪走了某人的工作,目前的社會結構看起來並不會在短期內將節省下來的成本回饋給他們。所以這個人將繼續有充分的理由討厭 AI。我這裡說得比較籠統,因為我們不在乎 AI 造成的實際生活品質影響,這個人對 AI 的「感知影響」才是最重要的。

我認為,由於這種普遍的厭惡感,可能會形成一種回饋迴路:原本可以自動化的工作不會被自動化,因為公關方面的損失比自動化節省的成本更嚴重。即使在得來速或呼叫中心使用語音大語言模型(LLM)在經濟上是划算的,人們也非常不喜歡與它們互動。這讓大眾更少接觸到目前的 AI 能力,讓他們認為 AI 是無能的,進而強化了他們的厭惡感。他們接觸到的少量 AI 將是經過極度成本優化的,與能力的尖端前沿相去甚遠。

例如,呼叫中心的員工正遭受越來越多認為他們是 AI 的撥打者的謾罵,並正在開發各種策略來向撥打者證明他們是人類

我可以想像在不遠的將來,世界會變成這樣:

  • 一般大眾極度厭惡 AI(我們基本上已經到了這一步),並因此相信所謂的高能力 AI 系統及其應用若非誇大其詞,就是徹底的騙局。
  • 實驗室說什麼都無法說服人們。NASA 能說什麼來證明地球是圓的以說服平地論者呢?更何況 NASA 還因為宣稱地球是圓的而賺了很多錢。
  • 即使是直接證據也不會產生太大影響。實驗室不會舉辦「懷疑者開放日」,任何能進入實驗室的人都可以被斥為利益共同體或騙局的一份子。即使你飛去南極洲的人真的改變了主意,其他人也不會。

我寫這篇文章的原因之一是 Reddit 上出現的一種奇怪現象:對直接證據的否認已經在發生。許多酷炫的人形機器人影片來自中國的實驗室,而人們卻聲稱那是 AI 生成的影片。如果你去找,可以發現更多否認顯然是真實影像的例子。

這裡有幾個干擾因素。最主要的是,有些人形機器人影片確實只是 CGI(但大多不是 AI 生成的)。中國實驗室在拍攝上似乎也有其獨特性,他們使用攝影滑軌實現非常平滑的平移和縮放,而且往往在空曠的辦公大樓環境中拍攝,而美國的人形機器人實驗室則有大型的專用測試場地。我認為這兩種拍攝選擇觸發了許多人的「AI 影片偵測器」,但如果你對 AI 更有研究,你可以清楚地看到影片中的連貫性和物理特性,這是 Sora 和 Veo 等模型尚未掌握的。顯然,當它們掌握了這些技術後,人們將有更多的彈藥來聲稱任何展示他們不相信的能力的影片都是偽造的。

將此作為人們否認 AI 能力的例子並不完全公平,因為他們只是在說這是用另一種 AI 偽造的。但這些主張背後的潛台詞是:生成影片遠不如讓機器人真正打功夫來得令人印象深刻。

這種現象對於「能力否認」正在發展來說是相當微弱的證據。我不認為目前任何一方都有強有力的證據——我也同樣可以輕易找到「一般大眾」討論 AI 奪走工作或生存風險的貼文。我認為密切關注這種平衡是很重要的。

我認為 AI 發展的特定方式助長了這種否認。我可以想像一個世界,AI 在學會寫軟體或檢測癌症之前,就已經非常擅長煎漢堡或開車。在這種情況下,我認為要否認它的成就就困難得多。但在我們的世界裡,AI 許多最偉大的成就(如蛋白質折疊或玩棋盤遊戲)都需要背景知識才能理解。即使當 AI 最終精通了煎漢堡和開車,由於最初的發展歷程,人們心中仍會存有一種揮之不去的疑慮。

我們確實已經擁有的一種無法偽造且每個人都能輕易理解的能力,就是說人類語言的能力,我認為這是許多人普遍相信 AI 能力的主要或唯一原因。

還有各種其他無法偽造的能力。問題在於,它們必須在實驗室之外的社會中廣泛存在,而我們距離實現大多數此類能力還很遙遠。即使在極其受控的環境中,人形機器人能完成的任務可能不到普通咖啡師的 10%(這甚至可能是高估了!)。這意味著你短期內不會在星巴克看到它們。

當那些無法偽造的能力真的上線時,我不確定它們是否會對已經根深蒂固的 AI 能力普遍懷疑產生太大影響。這種懷疑只會退縮到下一個能力領域。

換句話說:即使大眾可接觸的 AI 能力(如免費的 ChatGPT)僅落後尖端能力幾個月(如今日),電腦裡的智慧體也不一定能消滅「能力否認」,即使它們非常聰明。人們只會接受並承認螢幕現在可以獨立思考了。這肯定會稍微削弱否認,但也會強化人類與 AI 在其他領域(如機器人技術)的能力對比,而在這些領域,我們距離真正能讓人印象深刻的大眾化能力還很遙遠。當我們真的達到那一步時,這足以改變強烈的公眾否認情緒(如果存在的話)嗎?還是它會矛盾地被正常化和承認,卻無法產生實質影響?我認為我們已經在某種程度上看到了這種脫節——我原以為免費 LLM 目前的能力會比實際情況更能改變公眾輿論。人們可以把語言模型當作神諭,同時又處於「能力否認」之中。

請注意,假設人們是非理性的會讓任何論點處於危險的境地。我論點的核心是:對 AI 的厭惡可能導致對其能力的否認,進而導致對生存風險論點的不信任。我在上面解釋了為什麼我認為厭惡會導致能力否認。但為什麼否認會導致對生存風險的不信任,而不是導致對「愚蠢的灰色粘質」(grey goo)的恐懼,或其他不一定與邏輯掛鉤的事情?

首先,我認為這是一個初始條件問題。一般大眾的觀點具有相當大的慣性。而一般大眾通常不願意認真看待 AI 的生存風險。雖然近年來情況有所改善,這是好事,但幅度並不大。如果能力否認在這種情況下發展起來,在我看來,它更有可能將輿論推回相反的方向,而這兩種截然不同的現象將變得相互關聯並自我強化。

其次,對於智慧對手來說,聰明是可怕的,而愚蠢則不然。相信某種愚蠢的東西會毀滅世界具有顯著的「情感位能」,這感覺就是不對勁。

預測那些基於情感而非邏輯的信念發展是困難且容易出錯的。但在這種情況下,我們必須嘗試。

我們該如何反應?

無論我如何看待,能力否認對我來說都是一件非常糟糕的事情,我們必須努力預防,如果它正在進展,則必須扭轉它。它破壞了大多數生存風險論點的主要假設,這可能直接導致滅絕。

如果這種信念變得普遍,它似乎會減輕政治家監管 AI 的壓力,減輕實驗室負責任地研發和部署的壓力,並暗示整個安全與對齊(alignment)研究領域只是一場鬧劇。

我認為在某些情況下,討厭並否認 AI 能力的人可能會希望加強監管,例如如果他們擔心水資源或能源消耗。但這感覺只是整體中的一小部分。

如果某人已經有一點點能力否認的傾向,我認為生存風險的論點最終實際上會強化這種傾向。「這些瘋子覺得 AI 會毀滅世界,但它連過濾我的電子郵件都做不到?也許 AI 研究人員比我想像的還要蠢。」我認為「AI 非常強大」的想法會自然引發一個問題:它的上限在哪裡?這會引導人們自己去發現生存風險的概念。

一般大眾預期 AI 會做壞事,而 AI 圈子則猶豫不決或預期好事,這種脫節是有問題的。如果你同意 AI 很爛、很糟糕,似乎更容易說服人們相信 AI 的能力。邪惡 + 有能力 = 可怕;中立 + 有能力 = 情感上毫無波瀾。

請注意,我幾乎完全是在談論對 AI 了解不深、非研究人員或學術界的「一般大眾」。這似乎是一個唯獨影響資訊匱乏者的現象。我也認為現在有很好的理由將普通大眾作為目標(儘管作者後來對此觀點有所修正)。

所有生存風險論點的主要假設——即 AI 可以變得無限強大——是理性主義者思考過很多次的。然而,令我驚訝的是,我們顯然很少思考那些可能導致他人質疑該假設的因素。我確實找到了一篇專門探討能力否認的貼文,但那是兩年前的,非常短,而且大部分是由 GPT-4 寫的。是否還有其他構成生存風險論點的假設,我們也應該同樣檢視大眾對其接受度?可能吧,但我目前想不到。

我找不到任何關於這種現象的民調。我相信已經有一些間接涉及此問題的調查,我很想看到。我也認為在未來的民調中加入這樣一個問題會是個好主意:「你在多大程度上相信目前的 AI 能力是被誇大或偽造的?」

我覺得實驗室誇大能力可能是驅動這一現象的主要因素之一。即使是 Anthropic(通常是較負責任的一方)也嚴重誇大。但我不確定是否有人能對此做些什麼,因為實驗室作為有機體,對誇大的需求就像植物需要陽光一樣——放棄誇大就是向競爭對手投降,這意味著你會失去人才和投資者。儘管如此,實驗室這樣做是非常糟糕的,這幾乎是在有目的地將能力否認正常化。

能力否認的奇怪之處在於,它可能不會對時間線產生太大影響(甚至完全沒有),但會極大地影響結果。如果實驗室和投資者知道能力是真實的,他們就不會在意大眾的否認。也許他們會因為大眾端 AI 使用量減少而損失一些收入,也許這會稍微嚇到投資者。但在某些方面,實驗室可能更偏好能力否認,因為這意味著對他們所做的事情審查更少,報告和安全要求也更少,因為政策制定者根本不害怕 AI。

我確實認為更普遍的反 AI 抵制可能會在一定程度上減緩進程,正如這裡所論證的。也許可以說,在大多數新技術的採用過程中,社會因素的重要性與技術因素相當?

我沒有什麼好主意來撲滅陰謀論的火星,而且可能也沒有靈丹妙藥。我們也應該為無法撲滅火星、能力否認成為普遍信念的結果做好準備。我還沒有對這種可能性投入太多思考。理性主義者似乎必須隨時準備好抓住任何漏洞或事故(特別是如果造成人員傷亡),來宣傳 AI 的能力和單純的力量。但這一點我們早就知道了。

如果 AI 領域出現任何程度的泡沫破裂,強調 AI 的能力似乎就變得更加重要。資金斷崖式下跌是能力否認的一個現成理由。

感謝 Thane Ruthenis 審閱本文草稿。

(我也很歡迎關於寫作風格以及內容的意見,我目前還沒有寫過太多長篇散文。)

Lesswrong

相關文章

  1. 人工自我

    大約 1 個月前

  2. 資料中心裡的異類白痴國度:AI進展與公眾恐慌

    6 個月前

  3. 強大且失控的AI可能極具說服力,尤其是在缺乏緩解措施的情況下

    3 個月前

  4. 我們需要以福祉為基礎的 AI 正面願景

    The Gradient · 超過 1 年前

  5. 漸進式去權力化月度匯總 #3

    4 個月前