Eleos人工智能意識與福祉會議的重點總結

Lesswrong·5 個月前

我反思了 Eleos 會議中關於人工智慧意識與福利在哲學、法律及技術層面的討論，並主張採取還原論方法，同時強調我們不應創造出未來必須被迫關閉的系統。

轉載自我的 Substack。

這個週末我在 Lighthaven 參加了 Eleos 會議。在這篇文章中，我將分享在反思演講、論文和討論後的想法與近況，並提出一些我個人的見解，因為我以前從未寫過關於這個主題的文章。

我將我的想法分為三類：(1) 哲學、(2) 法律/社會、(3) 技術，儘管這三者之間存在不可避免的重疊。我也分享了在簡報中提到或在對話中被推薦的相關論文題目。

(1) 哲學

哲學界對 AI 意識持保留態度。我的意思是，即使在顯然適合應用「意向立場」（intentional stance）的情況下，哲學界人士仍傾向於避免用意向性術語來定義大型語言模型（LLM）的心理狀態，並抵制做出任何可能被解讀為「LLM 具有意識」的大膽主張。對此我並不特別感到驚訝，因為我也曾提出過一個將意向立場應用於 LLM 的實用框架，並避免爭論除此之外的任何觀點。David Chalmers 在最近的一篇論文中也描繪了類似的情景。與此相關的是，我們確實值得追問：我們所應用的意向立場對象究竟是什麼？是基礎模型、其中一個模擬物（simulacra），還是如 Chalmers 所說的對話線索（thread）？

轉向意識研究，我的一個具爭議性的觀點是：在檢視相關能力時，採取還原論（reductionist）的方法，而不去真正定義「意識」這個詞，或許是完全沒問題的。如果意識科學仍處於「前範式」（pre-paradigmatic）階段，那麼我們使用這個術語的方式，可能類似於煉金術在演變成化學之前使用「燃素」（phlogiston）的方式。我知道這聽起來可能像是對整個領域的直接攻擊，但恰恰相反，其目的是為了讓該領域進入範式時代鋪路。

現在，關於功能主義（functionalist）的辯論：我認為我們沒有充分的理由假設生物學有什麼特殊之處。我確實對生物學的優越性深表懷疑，因為我認為這是一種規定的規範性主張，而非主要基於現有的經驗結果。到目前為止，我們擁有的所有證據都表明，我們不需要複製生物系統的混亂性就能獲得具備能力的模型。

然而，如果我們關注的是道德地位，我們可能只想從規範性主張的角度來思考。因此，我們可能需要某種「反思平衡」（reflective equilibrium）來確定什麼才是重要的。我並不預設認同「我們在意 AI 是否擁有豐富內在領域」這種直覺；我所關注的實用與規範部分遵循還原論方法，例如，更傾向於排除受苦的可能性。

最後，我非常感興趣的一個問題是 AI 安全與 AI 福利之間潛在的緊張關係。這對我來說相當具有哲學意涵，因此在這裡簡要提及。每個人（特別是 AI 開發端的人員）都應該記住的核心訊息是：不要創造出你將來需要關閉的系統。 我認為無論是從安全還是福利的角度來看，這都是任何討論的堅實起點。

Eric Schwitzgebel 闡述了一種暗示對齊（alignment）與福利之間存在衝突的觀點（例如在這篇論文中），他基本上主張我們不應該為了對齊而創造「人」。就像養育人類一樣，我們必須允許 AI 代理人決定他們想要採納什麼價值觀，即使這違背我們的最佳利益。我認為這暗示了如果我們設計的僅僅是工具，那麼對齊就是理想的。

(2) 法律/社會

人們對與 AI 進行交易的情境越來越感興趣，並討論比較優勢在具有不同能力的 AI 系統的各種可能世界中如何展現。要讓這種情境成立，必須滿足兩個條件：(i) AI 有動力讓我們繼續存在，因為如果你死了就無法交易；(ii) AI 看到與我們交易的價值，例如，因為我們能真正理解它們對我們的需求並為其創造價值。為了讓 (i) 成立，我們還必須假設對齊問題已經解決，至少能讓人類存活並擁有一定的談判籌碼，或者我們生活在一個「預設即對齊」的世界。而 (ii) 的問題在於，當思考比較優勢時，目前還不清楚人們想像的是何種智力水平。因此，任何解決此問題的嘗試都應澄清預設了哪些能力。與此討論相關的兩篇論文是《為了人類安全的 AI 權利》和《為了人類繁榮的 AI 權利》。

撇開 AI 的心理狀態不談，AI 公司可能有動力將其產品識別為獨立的法律實體，例如出於責任歸屬的目的。我懷疑這樣做的標準涉及系統的代理性（agentic）程度，以及它在現實世界中採取行動的自由度。

在社會層面的討論中，我的印象是：直覺上的意識概念（大眾對「那是什麼感覺」的理解）與「擔心聽起來太怪異」的恐懼之間存在緊張關係。雖然我同情這種恐懼，但對我來說很明顯，我們不能假裝生活在一個一切照舊的世界；在經歷擴大「奧弗頓之窗」（Overton window）的過程中，怪異風險是必然存在的。

(3) 技術

有五個研究項目讓我印象深刻：

第一，最近關於內省（introspection）的研究，探討了大型語言模型中湧現的內省覺知。雖然對此做出回應可以獨立成篇，但令人震驚的是，有證據表明「目前的語言模型對其自身的內部狀態具有某些功能性的內省覺知」，儘管作者指出這並不可靠。此外，他們澄清「我們觀察到的內省能力可能不具有與人類相同的哲學意義」，且他們並未試圖徹底解決該問題。

第二，關於自我解釋性以及訓練模型解釋其自身計算過程的研究，對於推進可解釋性（interpretability）看起來非常有前景。這種方法的可擴展性，以及隨之而來的安全疑慮和風險（源於模型在機械層面非常了解自己），仍有待確定。

第三，更多關於性格訓練和塑造 LLM 人格的實驗性工作，可能會讓我們深入了解這些系統的目標，以及助手人格是如何形成的。這將有助於在哲學問題上取得進展，例如我們將意向立場應用於什麼，以及如何為 AI 代理人建模，同時也將使當前系統的實際對齊議程受益。

第四，《大型語言模型在自我指涉處理下報告主觀體驗》的結果相當具有啟發性。簡而言之，訓練似乎會使模型報告缺乏主觀體驗。然而，在某些條件下，指令模型關注其「自身」當前的認知活動，而不明確提到「意識」、「你」等詞彙時，模型最終會承認擁有主觀體驗。

最後，關於 LLM 道德評估（evals）總是吸引我，這裡有 MoReBench，它測試了 LLM 的道德推理能力，以及它們在思考過程中對某種規範框架優於另一種框架的偏好。

— Lesswrong

你的個人知識庫

Eleos人工智能意識與福祉會議的重點總結

(1) 哲學

(2) 法律/社會

(3) 技術