Eleos人工智能意識與福祉會議的重點總結

Lesswrong·

我反思了 Eleos 會議中關於人工智慧意識與福利在哲學、法律及技術層面的討論,並主張採取還原論方法,同時強調我們不應創造出未來必須被迫關閉的系統。

轉載自我的 Substack

這個週末我在 Lighthaven 參加了 Eleos 會議。在這篇文章中,我將分享在反思演講、論文和討論後的想法與近況,並提出一些我個人的見解,因為我以前從未寫過關於這個主題的文章。

我將我的想法分為三類:(1) 哲學、(2) 法律/社會、(3) 技術,儘管這三者之間存在不可避免的重疊。我也分享了在簡報中提到或在對話中被推薦的相關論文題目。

(1) 哲學

哲學界對 AI 意識持保留態度。我的意思是,即使在顯然適合應用「意向立場」(intentional stance)的情況下,哲學界人士仍傾向於避免用意向性術語來定義大型語言模型(LLM)的心理狀態,並抵制做出任何可能被解讀為「LLM 具有意識」的大膽主張。對此我並不特別感到驚訝,因為我也曾提出過一個將意向立場應用於 LLM 的實用框架,並避免爭論除此之外的任何觀點。David Chalmers 在最近的一篇論文中也描繪了類似的情景。與此相關的是,我們確實值得追問:我們所應用的意向立場對象究竟是什麼?是基礎模型、其中一個模擬物(simulacra),還是如 Chalmers 所說的對話線索(thread)?

轉向意識研究,我的一個具爭議性的觀點是:在檢視相關能力時,採取還原論(reductionist)的方法,而不去真正定義「意識」這個詞,或許是完全沒問題的。如果意識科學仍處於「前範式」(pre-paradigmatic)階段,那麼我們使用這個術語的方式,可能類似於煉金術在演變成化學之前使用「燃素」(phlogiston)的方式。我知道這聽起來可能像是對整個領域的直接攻擊,但恰恰相反,其目的是為了讓該領域進入範式時代鋪路。

現在,關於功能主義(functionalist)的辯論:我認為我們沒有充分的理由假設生物學有什麼特殊之處。我確實對生物學的優越性深表懷疑,因為我認為這是一種規定的規範性主張,而非主要基於現有的經驗結果。到目前為止,我們擁有的所有證據都表明,我們不需要複製生物系統的混亂性就能獲得具備能力的模型。

然而,如果我們關注的是道德地位,我們可能只想從規範性主張的角度來思考。因此,我們可能需要某種「反思平衡」(reflective equilibrium)來確定什麼才是重要的。我並不預設認同「我們在意 AI 是否擁有豐富內在領域」這種直覺;我所關注的實用與規範部分遵循還原論方法,例如,更傾向於排除受苦的可能性。

最後,我非常感興趣的一個問題是 AI 安全與 AI 福利之間潛在的緊張關係。這對我來說相當具有哲學意涵,因此在這裡簡要提及。每個人(特別是 AI 開發端的人員)都應該記住的核心訊息是:不要創造出你將來需要關閉的系統。 我認為無論是從安全還是福利的角度來看,這都是任何討論的堅實起點。

Eric Schwitzgebel 闡述了一種暗示對齊(alignment)與福利之間存在衝突的觀點(例如在這篇論文中),他基本上主張我們不應該為了對齊而創造「人」。就像養育人類一樣,我們必須允許 AI 代理人決定他們想要採納什麼價值觀,即使這違背我們的最佳利益。我認為這暗示了如果我們設計的僅僅是工具,那麼對齊就是理想的。

(2) 法律/社會

人們對與 AI 進行交易的情境越來越感興趣,並討論比較優勢在具有不同能力的 AI 系統的各種可能世界中如何展現。要讓這種情境成立,必須滿足兩個條件:(i) AI 有動力讓我們繼續存在,因為如果你死了就無法交易;(ii) AI 看到與我們交易的價值,例如,因為我們能真正理解它們對我們的需求並為其創造價值。為了讓 (i) 成立,我們還必須假設對齊問題已經解決,至少能讓人類存活並擁有一定的談判籌碼,或者我們生活在一個「預設即對齊」的世界。而 (ii) 的問題在於,當思考比較優勢時,目前還不清楚人們想像的是何種智力水平。因此,任何解決此問題的嘗試都應澄清預設了哪些能力。與此討論相關的兩篇論文是《為了人類安全的 AI 權利》和《為了人類繁榮的 AI 權利》。

撇開 AI 的心理狀態不談,AI 公司可能有動力將其產品識別為獨立的法律實體,例如出於責任歸屬的目的。我懷疑這樣做的標準涉及系統的代理性(agentic)程度,以及它在現實世界中採取行動的自由度。

在社會層面的討論中,我的印象是:直覺上的意識概念(大眾對「那是什麼感覺」的理解)與「擔心聽起來太怪異」的恐懼之間存在緊張關係。雖然我同情這種恐懼,但對我來說很明顯,我們不能假裝生活在一個一切照舊的世界;在經歷擴大「奧弗頓之窗」(Overton window)的過程中,怪異風險是必然存在的。

(3) 技術

有五個研究項目讓我印象深刻:

第一,最近關於內省(introspection)的研究,探討了大型語言模型中湧現的內省覺知。雖然對此做出回應可以獨立成篇,但令人震驚的是,有證據表明「目前的語言模型對其自身的內部狀態具有某些功能性的內省覺知」,儘管作者指出這並不可靠。此外,他們澄清「我們觀察到的內省能力可能不具有與人類相同的哲學意義」,且他們並未試圖徹底解決該問題。

第二,關於自我解釋性以及訓練模型解釋其自身計算過程的研究,對於推進可解釋性(interpretability)看起來非常有前景。這種方法的可擴展性,以及隨之而來的安全疑慮和風險(源於模型在機械層面非常了解自己),仍有待確定。

第三,更多關於性格訓練和塑造 LLM 人格的實驗性工作,可能會讓我們深入了解這些系統的目標,以及助手人格是如何形成的。這將有助於在哲學問題上取得進展,例如我們將意向立場應用於什麼,以及如何為 AI 代理人建模,同時也將使當前系統的實際對齊議程受益。

第四,《大型語言模型在自我指涉處理下報告主觀體驗》的結果相當具有啟發性。簡而言之,訓練似乎會使模型報告缺乏主觀體驗。然而,在某些條件下,指令模型關注其「自身」當前的認知活動,而不明確提到「意識」、「你」等詞彙時,模型最終會承認擁有主觀體驗。

最後,關於 LLM 道德評估(evals)總是吸引我,這裡有 MoReBench,它測試了 LLM 的道德推理能力,以及它們在思考過程中對某種規範框架優於另一種框架的偏好。

Lesswrong

相關文章

  1. 打造具備類人哲學思辨能力的人工智慧

    3 個月前

  2. 若人工智慧產生意識,我們必須知曉

    Hacker News · 4 個月前

  3. 我曾試圖使其更易理解的問題

    5 個月前

  4. 意識作為一種分散式的龐氏騙局

    5 個月前

  5. 我們需要以福祉為基礎的 AI 正面願景

    The Gradient · 超過 1 年前