以演化心理學為基礎的價值學習：對CEV的另一種提議

Lesswrong·4 個月前

我提議將 AI 價值學習植基於演化心理學，作為取代模糊的「連貫外推意志」（CEV）模型的科學方案。透過將 AI 視為演化框架下的延伸表現型或社交代理人，我們可以更清晰地定義人類價值，並辨識出我們的道德直覺何時處於分佈之外。

認識狀態：我思考這個主題已超過 15 年，這讓我得出了一些反直覺的結論，現在我正簡明地寫下我的想法。

[如果你不同意，若能告知你認為哪一步出錯了，對我會非常有幫助：即使是簡短的評論或關鍵點（crux）也很有用。]

價值學習（Value Learning）

價值學習為人工智慧的對齊問題（Alignment problem）提供了希望：如果我們能讓 AI 達到足夠接近的對齊，那麼它們就會想要幫助我們，並應收斂到與人類價值觀完全對齊。然而，為了實現這一點，它們（至少）需要一個關於「人類價值觀」一詞含義的定義。長期以來對此的提案是艾利澤·尤德考斯基（Eliezer Yudkowski）的「連貫外推意志」（Coherent Extrapolated Volition, CEV）：

在計算 CEV 時，AI 會預測一個理想化版本的我們會想要什麼，「如果我們知道更多、思考更快、更像我們希望自己成為的人、共同成長得更遠」。它會對全人類遞迴地迭代這種預測，並確定那些收斂的慾望。這種初始動態將被用來生成 AI 的效用函數。

這是一個有些籠統（hand-wavy）的定義。感覺上，沿著這些路線的某種收斂過程的極限可能存在。然而，外推過程似乎定義得相當鬆散，而且在無法獲得超人類智能和充足計算資源的情況下，很難確定這類過程是否真的收斂、是否存在一個唯一的收斂極限，以及如果有的話，那是什麼。將人類的生存和我們所珍視的一切寄託於此，似乎有點弱不禁風。（事實上，尤德考斯基本人顯然「在 2004 年發布後幾乎立即就認為 CEV 過時了」。）然而，目前仍然沒有其他被廣泛接受的替代提案。

如果能用一個關於「人類價值觀」實際含義的清晰定義來取代它，那將會很好，最好是基於某種成熟的科學理論，該理論不僅旨在解釋人類價值觀是什麼，還要解釋為什麼人類會重視這些價值。理想情況下，它甚至應該提供一套「錯誤理論」，說明人類何時以及為何可能會在意義上出錯，例如當他們在某種意義上處於「分佈外」（out of distribution）運作時——這在一個擁有 AI 的社會中似乎會變得越來越普遍。

進化心理學（Evolutionary Psychology）

幸運的是，我們已經有了關於這些事物的科學理論：它被稱為進化心理學。簡要總結如下：動物的行為，包括社交動物的社交行為，與生物學中的其他事物一樣，都是由進化力量決定的，並且同樣可以基於此進行預測——包括預測它何時無法達成目標。（像許多進化論點一樣，這些假設提出容易測試難，但它們仍然是可測試的——因此通用人工智慧（AGI）可能有得忙了。）

那麼，讓我們試試看。在進化心理學的框架下，「將人工智慧與人類價值觀對齊」這句話意味著什麼？在這種背景下，我們如何定義其中的每個部分？

人工智慧是一種具有智能的裝置：它同時是創造出來的工具，也是一個優化代理人（optimizing agent）。工具在進化心理學中的角色非常清晰：正如理查·道金斯（Richard Dawkins）詳盡論述的那樣，它們是製造它們的物種之「延伸表現型」（extended phenotype）的一部分：就像海狸的壩、蜘蛛的網、白蟻的巢，或是人類的石斧。進化傾向於（帶有其通常的局限性和反覆無常）優化創造這些工具的過程，以（近乎）最大化創造它們的工具使用物種成員的進化適應度。顯然，海狸的壩並沒有獨立的進化適應度：它不是活的，沒有獨立的遺傳密碼，也沒有後代可以傳承——它只是海狸與環境互動的一個面向，並且與海狸的其他部分一樣受到相同的進化過程約束，儘管它不是其真實身體的一部分。因此，從粗略和目的論的角度來說，進化為了海狸的利益而優化了水壩。

這也正是工程設計對工具的假設：製造出來的物體是為了人類的利益，並且應該（在工程設計意義上的該詞）盡可能好地履行該目的。對於任何工程師來說，這是一個陳腐、顯而易見且基礎的陳述。

然而，至少在非洲大草原上，工具通常不具備智能、代理性或強大的優化能力。具有智能或代理性的事物通常是其他生物：捕食者、獵物、親屬、同部落的其他成員、獵犬、寵物等等。這些是活的，並且獨立進化，因此與它們的互動涉及更複雜的平衡形式：生態平衡，或者對於人類等社交動物群體內的社交互動而言，則是社交平衡。特別是，這些是協同進化平衡（co-evolutionary equilibria）。[1]

進化心理學有一個子領域專門研究社交動物群體內的行為互動（具體而言，是生活在比近親更大的群體中、具有個體識別和差異化關係的動物），包括這些社交動物關於這些互動應如何構建的道德直覺，這被稱為進化道德心理學（又名描述性進化倫理學）。與大多數其他倫理學研究不同，這是生物學的一個分支，而非哲學，它試圖回答一組比許多倫理哲學家考慮的問題更受限且在科學上可解決的問題。

兩個離題

[給正在閱讀本文的哲學家的一個術語說明：進化道德心理學完全避開了休謨（Hume）的「實然與應然」（no ought from an is）問題，它僅專注於純粹「實然型」的經驗問題，即特定社交動物（例如人類）的道德直覺是什麼，以及關於為什麼這些直覺可能是某種特定方式的理論預測。這些問題對於由人類組成的社會成員具有實際後果，但完全不試圖解決規範倫理學或道德現實主義提出的問題。（誠然，一些哲學家試圖在規範或元倫理爭論中使用進化心理學的發現，例如規範進化倫理學，但我在此不討論那個。[2]）因此，它是描述性倫理學或道德心理學的一種形式，討論關於人類的普通經驗陳述。人們也可以主張一種自然主義或至少是方法論自然主義的觀點，即它不僅是忽略這些問題，而是將其擱置——作為一個研究領域，它肯定認為這些問題「超出範圍」。因此，在本篇博文的其餘部分，凡是我使用像「應該」或「應當」這樣聽起來像規範性的詞語時，如果我沒有特別說明，請假設我是以描述性倫理學的簡寫方式使用它們：我實際的意思是「出於進化原因，人類通常傾向於判斷（甚至經常採取行動）彷彿一個人應該/應當」——我絕對不是在提出或支持任何形式的道德現實主義主張。每當我改在進化意義上的「在相關條件下傾向於增加個體包容性適應度的策略」，或在工具性工程設計意義上的「如果我們做出這個決定，客戶會更滿意」使用「應該」或「應當」時，我會明確說明。我稍後會提出一個形式為「進化理論告訴我們這種行為對人類是不利的：如果你是人類，我建議不要這樣做」的論點——但那是實際的、工具性的建議，而不是規範性的處方。]

[另一個離題，這是給對效用函數感興趣的數學家和功利主義者的：人類進化的道德直覺（更準確地說，是任何個體人類道德直覺背後共享的進化認知/情感機制）並不是一個效用函數：它們是比那弱得多的東西。它們不會對所有可實現的結果產生偏好排序：它們僅對結果產生一個近似的偏序（partial ordering）。有些問題確實有明確的答案：例如，「AI 應該殺死所有人類嗎？」從人類道德直覺中得到了一個非常明確的「不！」。它們也顯然反對亂倫，支持公平。在其他話題上，來自人類進化道德直覺的答案可能就不那麼清晰，個體人類會對此進行辯論，而對於那些與進化所處理的原生環境相去甚遠的主題（如範疇論、量子力學的解釋或木衛二的地理），它們幾乎沒有輸入，任何有的輸入都將是分佈外外推，因此很難從進化心理學中預測。因此，有大量效用函數與人類道德直覺相容：所有那些產生的偏好排序與人類道德直覺產生的偏序相容的函數。還有更多明顯與人類道德直覺偏序不相容的效用函數（例如迴紋針最大化者）。此外，由於人類道德直覺是模糊且近似的，在這兩種可能性之間的邊界區域也存在一些效用函數，它們某種程度上符合人類道德直覺，但擬合得有些勉強：有些人類可能覺得可以接受，其他人類則不然。我們討論的不是一個乾淨、定義明確的數學對象——它是生物學、心理學、統計學且混亂的。]

工具，還是對等者？

簡述一下我們在這些離題之前的進度：人工智慧在進化上似乎是一個困難的案例：它是因為其人工性而成為一種工具，從而成為我們延伸表現型的一部分，還是受制於我們...

— Lesswrong