反對AI發展的演化論證存在缺陷

Lesswrong·4 個月前

以演化為類比來論證人工智慧必然會偏離人類目標的說法是有缺陷的，因為它忽略了關於人工智慧行為的直接經驗證據，且從根本上誤解了演化作為一種篩選機制的運作方式。

有一種常見的論點認為人工智慧（AI）的發展是危險的，其邏輯大致如下：

演化的「目標」是創造出能盡可能複製其基因的動物；
人類並不想要盡可能地複製自己的基因；
我們有一些希望 AI 達成的目標，而我們開發 AI 的方式與演化開發人類的方式相似；
因此，它們不會共有這個目標，就像人類不共有演化的目標一樣。
這個論點很爛。它存在嚴重的、根本性的，且在我看來是無法修補的缺陷。這並不是說其結論是錯誤的；在某種程度上，我同意該論點通常想表達的觀點。但人們仍應避免使用糟糕的論點。

我們何時該停止使用類比？

考慮以下論點：

大多數戰爭的傷亡人數都少於一百萬。
因此，我們應該預期下一場（以某種方式定義的）開始的戰爭，其結束時的傷亡人數將少於一百萬。
這存在一些問題。例如，我們可能認為現代戰爭的傷亡人數多於或少於所有戰爭的參考類別；我們可能認為某場特定的衝突即將發生，且我們有理由相信其規模會比平常更大；我們可能認為不久的將來戰爭型態會發生某種變化，使得下一場戰爭與歷史上「典型戰爭」的差距比近期戰爭還要大。無論如何，這些問題都不是不可逾越的。我們可以更改抽樣的類別，以符合我們認為更具代表性的類別，或者將此作為「先驗機率」並納入更多資訊來調整我們的估計；一個合理的傷亡估計，其核心很可能會有一個類似於此的論點。

這是另一個論點：

大多數戰爭的傷亡人數都少於一百萬。
因此，俄烏戰爭的傷亡人數少於一百萬。
這個論點是荒謬的。即使傷亡估計存在很大的不確定性，幾乎任何關於該特定戰爭的直接證據，都將完全壓倒關於該戰爭可能屬於或不屬於哪個廣泛參考類別的任何考量，以至於考慮後者是荒謬的。同樣地[1]，在 2005 年，像演化類比這樣極其廣泛的類比，或許是對於「人類開發的 AI 有多大可能照我們意願行事」的最佳推測中合理的一部分。但現在情況已不再如此。我們有更多直接證據顯示，透過我們考慮的任何特定方法訓練出來的 AI，如何將其訓練泛化到分佈外（off-distribution）的輸入；我們對於可能或可能不會產生的目標導向行為有更多直接證據。[2] 即使這些證據品質不佳，其品質也比類比高得多。

……而且它從來就不是一個好的類比

演化沒有目標

轉向論點本身的問題，這是顯而易見的一個：演化不是一個人，它沒有目標。我想大多數人，無論是隱含地還是明確地，都意識到這是一個問題，因此會邀請讀者想像演化正在努力實現某個目標。從根本上說，這裡沒有問題；你可以想像構建一個類似這樣的論點：

演化類比於我們訓練模型所用的「損失函數」；
人類並不想要針對這個損失函數「最小化損失」；
因此，AI 也不會想要針對它們所接受訓練的任何損失函數來「最小化損失」。
這暗示了根據代表我們對 AI 期望的損失函數進行訓練，並不是讓 AI 從內心想要實現這些願望的好方法。

是孟德爾，不是克里克

人們經常聲稱（例如在 IABED 中），基因的「目標」是讓盡可能多個特定分子（即基因）的實例存在。撇開所有其他問題，讓我們首先關注一個技術點：演化的「損失函數」，就其可以被說成擁有這種東西而言，與分子沒有任何關係。我不完全確定這種誤解究竟從何而來，但我猜測這與道金斯（Dawkins）在《自私的基因》（The Selfish Gene）中對「基因」一詞的輕微誤用有關。「基因」這個詞可以有兩種含義。維基百科解釋如下：

在生物學中，基因一詞有兩種含義。孟德爾基因（Mendelian gene）是遺傳的基本單位。分子基因（molecular gene）是 DNA 中被轉錄以產生功能性 RNA 的核苷酸序列。

就人們可以將演化視為類似於梯度下降（gradient descent）的過程而言，它運作的單位是孟德爾基因，而不是分子基因。這看起來像是學術上的區別，但如果不做區分，演化的過程就會變得相當神秘。例如，生物體通常不會產生超過其運作所需數量的遺傳密碼副本[3]。為什麼不呢？DNA 僅佔許多動物資源消耗中極小的一部分；例如，在每個細胞中額外複製幾次基因組幾乎是不需要成本的。如果假設生物體是根據它們增殖其（分子）基因的程度而被選擇的，這理應會大幅增加適應度；事實上，這反而降低了適應度。為什麼？因為「適應度」的本質是特徵（trait）的增殖，而不是恰好編碼該特徵的任何東西[4]。這使得如下說法：

在我們看來，大多數人類在深層意義上根本不在乎遺傳適應度。我們在乎的是代理指標，如友誼、愛、家庭和孩子。我們甚至可能在乎將我們的一些特徵傳給下一代。但具體到基因？

變得相當令人困惑。「將我們的一些特徵傳給下一代」正是傳播一個人的基因！就演化而言，沒有任何傳遞特徵的方式在物質上不同於擁有繼承特徵的後代——無論這些特徵目前恰好存在於何種基質上。事實上，如果只產生許多分子基因的副本，而沒有產生攜帶自身特徵的新個體，按照自然選擇的標準來看是失敗的。

人類並非「對齊失誤」

由此可見，按照任何合理的衡量標準，人類在傳播基因的任務上是（某種程度上）「對齊」的。許多人可能不是，但大多數人是。大多數人從本質上希望未來有許多在形態和功能上與自己相似的人；也就是說，大多數人希望自己的基因得到傳播。也許大多數人不想為遺傳適應度進行優化，但如果他們真的這麼做了，目前還不清楚這是否真的會產生一個特別適應環境的物種；看起來我們那些「對齊失誤」的驅動力，恰恰是引導我們發展出工業文明以及隨之而來的人口爆炸的原因[5]。對我來說，並不清楚一個將繁殖優先級定得更高的人類生物體是否真的會有更多的人口。當然可以做出某些改變，使當前人口在某種反事實情況下更高，但沒有特別的理由相信這些改變會是顯而易見的那些，或者是那些會讓人類對自然選擇「更對齊」的改變。

現在，有人可能會說：這一切都很好，但雖然現在對我們的基因來說情況看起來不錯，但在未來，由於缺乏內在的繁殖驅動力，人類人口將會崩潰，以至於情況會比我們僅僅保持狩獵採集狀態要糟糕得多（同樣，是對我們的基因而言）。這似乎是有可能的，但很難說是確定的——例如，我能想像人類滅絕的唯一方式，是透過非人為事件（因此對於「對複製目標的對齊程度更高或更低是否對物種傳播更有利」的問題並不相關，因為無論如何都沒差），或者是來自通用人工超智慧（ASI）本身（這樣論點就變成循環論證了）。特別是，生育率下降會無限期持續下去，似乎並不比人口增長會持續到達到環境承載力為止更確定。鑑於許多人明確且本質上渴望其表型（phenotype）的傳播（或至少是其延續），目前尚不清楚大部分的「對齊失誤」究竟是人類作為主體所持有的目標差異造成的，還是非目標導向行為的結果（例如，極少數人會認為自己花好幾個小時看短影音是在實現任何自覺持有的目標，即使是那些正在看的人也是如此）。在我看來，相對於演化，人類擁有的「內在」「對齊」可能遠多於「外在」對齊。

我們不使用演化來訓練 AI

這是顯而易見的，我加入這一點只是為了完整性。我們優化 AI 訓練函數的機制，與生物體被選擇適應度的機制並不相同。

演化不產生單獨的大腦

更確切地說，接受訓練的對象並不類比。演化的「產物」是表型，而不是生物體，而一次 AI 訓練運行的產物是一個實際的 AI。成年生物體擁有的目標與其表型被建構來實現的「目標」不同（即便假設存在這樣的目標），這並不令人驚訝——透過基因完全指定一個在成年後能可靠且不論環境如何都想要一個高度抽象目標的生物體，這在表面上就是不可能的！（如果誤解了哪種「基因」與此事相關，那麼這會變得更加明顯地不可能；究竟要如何在 DNA 中編碼分子的概念，以及某個特定分子應該被盡可能傳播的概念？）。鑑於

— Lesswrong