我2003年關於AI對齊失調的演化論證文章

Lesswrong·3 個月前

我認為正如人類透過技術與迷因演化出繞過基因目標的能力，人工智慧也可能同樣超越其程式設定的約束，因此防止 AI 內部或彼此間產生類迷因的交流或許是一個潛在的解決方案。

這是在 2003 年最後一天發布於 SL4 的文章。我基本上已經遺忘了它，直到我看見 LW Wiki 在「中層優化」（Mesa Optimization）[1] 條目下引用了它。除了現在已被廣泛討論的「獎勵黑客」（reward hacking）角度外，它還提出了一個基於哲學、模因學（memetics）與對齊之間關係的論點，這方面的討論相對較少（包括目前關於人類生育率下降的討論），或許仍值得閱讀與思考。總體而言，除了最後一段外，這篇文章經受住了時間的考驗。

從歷史背景來看，Eliezer 在 2001 年 6 月的《創造友好 AI 1.0》（Creating Friendly AI 1.0）中創造了「友好 AI」（Friendly AI）一詞。雖然其中大部分內容非常難以理解，且隨後被 Eliezer 本人否認，但其中有一節關於「哲學危機」[2] 的內容，可能影響了我隨後包括這篇文章在內的許多思考。現在被稱為《序列》（The Sequences）的文章則是在 2006 年開始發布於 OB/LW。

在 2003 年之後，我認為這篇文章大多被忽視或遺忘了（包括我自己），而 MIRI 大約在 2016 年左右重新發明了中層優化/內部失調（inner-misalignment）的概念。我記得在參加 MIRI 的一個工作坊（主要是關於無關的決策論）時，聽到人們談論內部與外部對齊，當時我的反應是「喔，這是新東西」。

SL4 貼文

主題：「友好」的人類？
日期：2003 年 12 月 31 日，週三

為什麼我們不是基因的忠實僕人？相反地，基因為了對抗寄生模因（parasitic memes）而建立的防禦機制正在崩潰，導致整個社會即便在享有前所未有的技術與物質財富時，生育率仍降至替代水準以下。基因構建了我們的大腦，希望我們能對它們保持友好，而它們似乎失敗了。為什麼？在我們嘗試構建自己的友好高階智能時，能從它們的災難中學到什麼嗎？

我認為我們對基因變得越來越不友好的原因在於，寄生模因的演化速度太快，基因及其共生的防禦性模因無法跟上，而這是從印刷機開始的一系列通訊技術進步的結果。基因演化出兩種確保我們友好的方式：內建的慾望，以及承載一套在童年時期習得、定義並證明對基因友好的哲學體系。對基因來說不幸的是，一旦達到一定的技術水平（例如避孕技術的發展），那些內建的慾望已被證明很容易被繞過；而演化在經過數十萬年後能為基因友好性提出的最佳哲學辯護，竟是存在一個希望人類繁衍的神。

這對我們自己的努力來說不是個好兆頭。超級智能（SI）肯定會發現，繞過我們設定在它身上的任何內建慾望或約束都是輕而易舉的；而我們提出的任何人類友好性的理由，在它看來可能就像「充滿大地」的有神論對我們而言一樣愚蠢。

但也許仍有樂觀的理由，因為與人類不同，超級智能的運作不需要依賴模因，所以我們或許可以透過完全不引入模因來防止對人類不友好的模因問題。例如，我們可以將超級智能設為單一實體（singleton）。如果開發出多個超級智能，我們可以嘗試阻止它們彼此交流，特別是關於哲學的交流。如果超級智能是由多個內部代理組成的，我們可以嘗試確保它們的內部溝通管道不適合傳播模因。

新年快樂！

[1] ^ 或者是可能在某個播客中聽到它被提及為演化與 AI 對齊類比的最早描述，但我不確定，也記不起或找不到是哪個播客。

[2] ^ 該章節的引言寫道：「哲學危機」很難定義。我通常將「哲學危機」視為 AI 偶然發現了某些事實，使其脫離了程式設計師的控制——也就是說，程式設計師有一些深藏的潛意識偏見使他們不可信，或者 AI 偶然發現了一個刻意的謊言，或者 AI 發現了客觀道德等等。如果假設的差距足夠大，可能足以同時使幾乎所有的內容失效。

— Lesswrong

你的個人知識庫

我2003年關於AI對齊失調的演化論證文章