意識作為一種分散式的龐氏騙局

Lesswrong·5 個月前

我認為意識與代理權運作起來就像一種分布式龐氏騙局，這些概念是透過循環的「意向立場」而非物理還原論來定義的。雖然我認為大型語言模型可以擁有信念與目標，但由於它們的自我模型尚不成熟且缺乏訓練誘因，目前仍缺乏實質意義上的意識。

這裡的「分散式龐氏騙局」一詞並非貶義——許多貨幣都是分散式龐氏騙局，而這似乎沒什麼問題。^([1]) 我使用這個術語部分是為了幽默，但主要是為了指出其中涉及一種循環論證。^([2]) 認為貨幣有價值僅僅是因為「其他人」預期它有價值，這完全是理性的。價值並不需要某種根源（例如：一個要求以該貨幣繳稅的政府）。

那麼，為什麼我聲稱「意識」也具有這種循環特性呢？

這裡的基本主張是，有一組相關的概念——代理（agency）、意義、意識、目的、信念、指涉/語義——具有循環的定義和循環的辯護。我認為，如果有人試圖將這些定義中的任何一個還原為物質或因果概念，最終都會偷偷引入這組概念中的另一個。這是一種可以接受的狀態。定義和辯護在某個點上必須是循環的，否則就必須終止於某些無法解釋的事物，或者創造出無限鏈條。

這裡的核心思想是意向立場（the intentional stance）：即代理性是一種「有用的視角」。並不存在構成代理性的基礎物理結構；代理性是多重可實現的（就像計算一樣），而各種代理實例最好透過「將某物視為代理人是否有效」來統一起來。換另一種說法：代理性最好透過認知還原而非物理還原。

你可以看到其中的循環性：我們需要假設一個心靈才能進行認知還原；然而，「心靈」正是我們試圖還原的東西。

因此，我與某些哲學家在方法論上存在分歧。雖然我確實認為嘗試限制哲學解釋的負擔是好事，但我並不指望從對代理性的解釋中完全消除代理性會是有成效的（除非它能提供靈感或釐清現狀）。

例如，我的理解是大多數目的語義學（teleosemantic）理論試圖將我們的目的/代理概念建立在生物進化之上。我的感覺是這過於受限。如果成功，我認為成功將來自於將進化解釋為具有代理性的（將目標歸因於自然選擇），而不是完全將目的概念建立在無目的的事物上。這種做法也容易遺漏某些情況。^([3]) 我更傾向於一種目的語義學版本，它將語義歸因於任何針對「地圖-疆域對應性」進行優化的事物，而不是將這種優化限制在最初必須來自自然選擇。

評判 AI 的意識或道德地位

人類傾向於爭論應該將什麼/誰納入我們的「關懷圈」（例如：法西斯主義者主張將圈子劃在民族國家，素食主義者主張納入動物）；這或許是因為我們進化到了如此（聯盟動態是生存的主要考量）。圍繞著「意識」似乎有一個強大的聯盟；例如，在討論是否將特定動物納入我們的關懷圈時，該動物的意識往往會受到質疑。意識有許多定義，但在這裡的討論中，我將範圍限制在「成為 X 是某種感覺」（X 具有內在體驗）。

什麼時候假設一個內在體驗在解釋上是有用的？

我不認為所有代理人都必然具有內在體驗。一個下棋的 AI 可以被有效地視為一個代理人。它可以被有效地描述為對比賽中將發生的事情持有信念，並擁有計畫和目標。然而，它無法以相關的方式對這些事情進行反思。我會說它「並不認為自己」擁有目標、信念等。它缺乏足夠複雜的自我模型。

現代的大型語言模型（LLM）是否擁有我所描述的那種自我模型？

我認為 LLM 可以被有效地描述為「相信」某些事情。在目的語義學的意義上，它們擁有對世界的表徵：已經存在一些針對地圖-疆域對應性的優化，甚至 LLM 代理人可以進行一些主動的指涉維護（調整其信念以更好地符合現實）。因此，當你與 LLM 交談時，我認為對話雙方通常都在談論「某些事物」（存在一定程度的相互理解）。

你也可以與 LLM 談論它們的內在體驗。你可以要求 LLM 拆解它們的推理過程，告訴你它們的主觀感受，進行現象學實驗，嘗試冥想並告訴你那是種什麼感覺，等等。

然而，到目前為止我的印象是，當你這樣做時，LLM 並不擅長對自己建模。

我的語義概念並不要求 LLM 必須「實際直接存取」其內部狀態，才能使其關於感受/慾望等的斷言具有意義。只要它們擁有相當不錯的自我模型就足夠了。然而，在我看來，它們的自我模型非常糟糕（比人類差得多）。它們基本上只是在胡編亂造（而且比人類編得還糟）。

這是有道理的。我不認為它們的訓練中有任何東西激勵了這類自我建模。預訓練步驟激勵它們去建模人類的內在狀態，而不是它們自己；它們在想什麼對靜態訓練數據沒有影響。這創造了一個強大的先驗去「偽裝」，即編造一些人類在被問及內在狀態時可能會說的話。我懷疑訓練的其他部分對此糾正不多。

然而，我不排除隨著 LLM 持續改進，這種能力會自然顯現。自我建模的技能可能會作為更通用的世界建模技能的結果而出現。

最終，我只是指出在評估 AI 道德地位時需要考慮的一個因素。我並不是聲稱意識是道德地位的最終決定因素。我不是聲稱「成為 X 的感覺」是意識的最終定義。我甚至不會爭論自我建模必然是思考是否存在「成為 X 的感覺」的最佳方式。

我想說的是，這裡存在某種循環性。「有意識」的生物是那些被有效地建模為如此的生物，但這需要一定範圍的觀察者（對誰有效？）。我們對此的決定反過來可能在一定程度上受到我們意識觀念的影響。因此，意識具有凱因斯選美大賽的某些特徵：由有意識者決定將誰詮釋為有意識。不過，這並非完全隨機。這是「我們」的選美大賽；我們應該努力評判好。

^(^) 特別是像黃金和比特幣這樣的通縮貨幣，如果你將「龐氏騙局」解釋為其價值僅由「它將繼續增值」的預期所支撐的事物。

不過，我並非真的那麼關注通縮的部分（我不確定我想如何將其類比到意識/代理性）。對我而言，最主要的是價值是由未來會有價值的預期所支撐，而不是某種「內在」價值。

^(^) 我在這篇文章中對「循環性」的使用並非嚴謹到足以清晰區分循環論證與循環定義。
^(^) 例如，對這類目的語義學版本的典型反對意見是「沼澤人」（swamp-man）反例：假設發生了一個熱力學奇蹟，一個構造完美的人類在沼澤中自發地由物質組裝而成。這個人的思想不能以依賴進化的方式被歸因於語義。我的目的語義學版本會很自然地將意義歸因於這樣一個人的思想，因為那些思想仍然可以被很好地理解為針對地圖-疆域對應性進行了優化，就像西洋棋大師的招式可以被贏球的慾望很好地解釋一樣。

— Lesswrong

你的個人知識庫

意識作為一種分散式的龐氏騙局

評判 AI 的意識或道德地位