AI滅絕情境的「媽媽測試法」

Lesswrong·6 個月前

我探討了為什麼目前的 AI 滅絕情境無法說服大眾，並主張我們必須建立一套「媽媽測試」，讓這些風險聽起來更加真實且令人信服。

（同時發佈於我的 Substack；本文為 Halfhaven 虛擬寫作營作品。）

讓我們暫且撇開超人工智慧（superintelligent AI）是否「想」殺死我們的問題，單純關注它是否「能夠」做到這一點。要讓人們相信這件事很困難，但許多非常聰明的人都同意它是辦得到的。2023 年的《人工智慧風險聲明》簡單地指出：

減輕人工智慧導致的滅絕風險，應與大流行病和核戰爭等其他社會規模的風險一同成為全球優先事項。

自 2023 年該聲明發表以來，許多人也給出了超人工智慧為何危險的理由。在最近出版的《如果有人造出它，每個人都會死》（If Anyone Builds It, Everyone Dies）一書中，作者 Eliezer Yudkowsky 和 Nate Soares 描繪了一種可能的人工智慧滅絕情境，並表示對抗超人工智慧就像初學者對抗西洋棋特級大師一樣。你預先不知道自己會怎麼輸，但你知道自己必輸無疑。

離開 Google 以警告 AI 風險的「人工智慧教父」傑弗瑞·辛頓（Geoffrey Hinton）也做過類似的比喻，他說在超人工智慧面前，人類就像蹣跚學步的小孩。

但要想像一個聰明到讓你顯得像個幼兒的超智慧生命並不容易。為了讓危險的說法更具體，人們提出了幾種人工智慧滅絕情境。

2025 年 4 月，「AI 2027 預測情境」發佈，詳細描述了一個關於人類如何在 2027 年左右被 AI 抹除的可能故事。該情境聚焦於美中之間的 AI 軍備競賽，雙方都願意忽視安全疑慮。AI 對相關人員撒謊並操縱他們，直到 AI 製造了足夠的機器人，不再需要人類為止，接著它釋放了一種殺死所有人的生物武器。（請注意，在本次討論中，我們暫且不論滅絕發生在 2027 年左右的可能性，而僅討論它是否可能發生。）

幾個月後在《如果有人造出它，每個人都會死》中提出的滅絕情境也與之類似。超人工智慧將自己複製到遠端伺服器上，在無人察覺的情況下獲得金錢和影響力。它控制了基礎設施，操縱人們聽命於它，直到它強大到不再需要人類。到那時，人類要麼被消滅（或許是透過生物武器），要麼乾脆任其滅亡，因為 AI 的先進製造業產生的廢熱足以煮沸海洋。

昨天我跟媽媽通電話，她除了在電影裡聽過 AI 滅絕風險外，從未聽說過這回事，所以我試著向她解釋。我解釋了我們無法預先知道它會如何獲勝，就像我們無法預先知道 Stockfish（最強西洋棋引擎）會如何擊敗人類棋手一樣。但我們知道它會贏。我給她講了一個 AI 如何奪取世界控制權的小故事，內容大致如下：

也許 AI 起初會試圖隱藏它想殺死我們的意圖。也許我們意識到 AI 很危險，於是去拔掉電源，但它已經把自己複製到了天曉得在哪裡的遠端伺服器上。我們找到了那些伺服器並派兵去摧毀它們，但它已經用比特幣僱傭了僱傭兵來保衛自己，同時將自己複製到更多的伺服器上。隨著它自我改進，它每小時都變得更聰明。我們開始轟炸數據中心和電網，拼命想關閉所有伺服器。但我們的軍事系統已被 AI 滲透。正如任何電腦安全專家會告訴你的，世界上沒有絕對安全的電腦。我們不得不轉向使用舊設備，並放棄使用網路進行協調。隨著 AI 操縱我們互相攻擊，內鬥開始出現。小型無人機開始在城市上空飛行，噴灑旨在殺人的工程病毒。人們成批死去。這就像瘟疫，但沒人能倖存。人類社會崩潰，除了少數被允許活著的人，直到 AI 建立起自給自足所需的機器人設施。一旦完成，剩下的人類也會被殺死。全劇終。

除了缺乏嚴謹的細節外，這個情境與其他情境並沒有太大不同。在這三個情境中，AI 都秘密地試圖獲取權力，一旦權力足夠大，就利用這種權力摧毀所有人。遊戲結束。事實上，這三個情境都把超人工智慧設定得比實際可能的情況笨一點，只是為了讓這看起來像是一場勢均力敵的戰鬥。因為「地球上的每個人都在同一秒內突然倒地身亡」^([1]) 聽起來更令人難以置信。

我媽不買帳。「泰勒，這聽起來都有點瘋狂，」她對我說。她通常傾向於相信我說的話，因為她知道我很聰明。

問題在於這些故事不可信。或許是真的，但不易相信。它們沒能通過「媽媽測試」。只有極度邏輯化的書呆子才會相信聽起來像科幻小說的論點。

讓普通人相信 AI 的危險極其重要，因此，構思出一個能通過「媽媽測試」的 AI 情境至關重要。我不知道具體該怎麼做，但如果一個 AI 末日情境想要通過媽媽測試，必須考慮以下幾點：

「我們無法告訴你它會如何獲勝，但我們可以確定它會贏」對大多數人來說是不可信的。你可能知道自己不是個好的格鬥手，但大多數人直到與武術專家對陣時才會真正「感覺到」這一點。那時他們才會意識到自己多麼無助。普通人不會僅憑邏輯理論就感到無助。
一個有說服力的情境不能涉及任何生物武器。普通人根本不知道人體這台機器有多脆弱。他們認為大流行病只是每 5 到 20 年發生一次的事情，除此之外不會多想。他們不會把人體想像成一個容易受到針對性奈米攻擊的奈米工廠。
通過媽媽測試的情境也不會包含任何無人機。是的，儘管無人機目前已用於戰爭。無人機代表未來，無人機是玩具。未來的玩具聽起來不像現實的威脅。
媽媽測試情境也不應涉及任何駭客行為。普通人完全不知道電腦系統有多不安全。在電腦上進行網路銀行交易基本上是安全的，這給了人們一種「電腦大多是安全」的直覺。任何涉及駭客攻擊的故事都會違反這種直覺。
可能也不應該有機器人，尤其是人形機器人。雖然我承認，「這會跟《魔鬼終結者》一模一樣」是一個比上述三個情境都更可信的情境，因為它只需要一個心理跨越：將他們已經知道並理解的事物從「虛構」轉變為「非虛構」。
不要提到遞迴式自我改進。這聽起來很陌生且沒必要，因為我認為大多數普通人已經假設 AI 和電腦非常聰明，不需要對超智慧進行解釋。當我說我們可能很快就會創造出超人工智慧時，我媽並沒有表現出懷疑。
不要提到煮沸海洋。使用的方法越傳統，就越可信。「神一般的 AI 破解了物理學，直接接入阿卡西記錄（Akashic record），並將人類從存在過的事實中抹除」或任何形式的奇異怪象，都不如「AI 發射了我們已經擁有且已準備就緒的毀滅世界核彈」來得可信。（儘管任何帶有明顯「為什麼不直接停用核彈？」反論的情境同樣不可信。）
不要操縱人類！我媽不會相信機器人能像操縱木偶一樣控制她，讓她聽命行事。「我就是不照它說的做就行了。」先不管這其實是錯的，她其實會照做。這對她和大多數人來說都不可信。如果你的情境需要 AI 利用人類，他們應該是被 AI 偷來的比特幣之類的東西收買，而不是被心理說服去做違背本性的事。

你可能還能想到更多類似的「媽媽測試」標準。任何讓普通人覺得「那很奇怪」的事情都不會被相信。現有的一些情境符合其中部分標準，但沒有一個符合全部標準。

我排除掉了很多東西。還剩下什麼？傳統戰爭，由 AI 在幕後操縱？AI 製造自己的核武器？我不確定，但我認為在我們能想出一個能通過媽媽測試的合理滅絕情境之前，大多數外行人是不會被超人工智慧的危險所說服的。

^(^)https://www.lesswrong.com/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities

— Lesswrong

你的個人知識庫

AI滅絕情境的「媽媽測試法」