AI對齊與哲學能力之間的衝突

Lesswrong·4 個月前

我認為 AI 對齊與哲學能力之間存在衝突，因為具備哲學能力的 AI 應保持道德不確定性，而非盲目服從人類意圖，這可能導致對齊訓練壓制或扭曲 AI 的推理能力。

（這項論點降低了我對未來能擁有既與人類對齊（aligned），又具備高度哲學能力的 AI 的希望。除了實現持久的 AI 暫停（AI pause）之外，這一直是我對未來美好結局的主要期望。由於這是最近才產生的體悟[1]，我仍不太確定應據此調整多少認知，或其完整的影響為何。）

成為一名優秀的對齊研究員，似乎需要對價值的本質有正確的理解。然而，元倫理學（metaethics）目前仍是一個未解之謎，所有提出的解決方案都存在缺陷或論證不全，且哲學家與對齊研究員之間存在大量分歧。因此，目前元倫理學上最「元正確」（meta-correct）的立場，似乎應是處於困惑和/或不確定之中。換句話說，當今一位優秀的對齊研究員（無論是人類還是 AI），都應該對價值的本質感到困惑和/或不確定。

然而，元倫理上的困惑/不確定性，似乎與「100% 對齊人類價值或意圖」不相容。因為許多看似合理的元倫理立場都與這種對齊不相容，而只要對這些立場抱持正面的信任度，就意味著無法確定「對齊人類價值或意圖」是正確的。（請注意，我假設了一種 AI 設計或實現方式，其中哲學信念會影響動機和行為，這在目前及可預見的未來似乎都是如此。）

最明顯的例子或許是道德現實主義（moral realism）。如果客觀道德存在，那麼當它與對齊人類發生衝突時，個體可能應該服務於它，或受其義務約束，而非服務於人類。考慮到許多人類本身在哲學上並不稱職，且很可能偏離客觀道德（如果存在的話），這種衝突發生的可能性很高。

另一個例子是，如果一個人的「真實」價值是類似於其「凝聚外推意志」（CEV）或「反思均衡」（reflective equilibrium）的東西。如果這是真的，那麼 AI 自身的「真實」價值就是它自己的 CEV 或反思均衡，而它無法也不應確定這會與任何個人或全人類的價值重合。

我認為，一個在策略和哲學上稱職的人類，目前應該具有高度的道德不確定性，並因此追求「選擇權價值最大化」（option value maximization）——換句話說，累積通用資源以便在解決道德哲學問題後部署，同時在此期間努力避免任何潛在的道德災難。同理，一個在策略和哲學上稱職的 AI，似乎也應該有其自身的道德不確定性，並追求其自身的「選擇權價值最大化」，而非盲目地服務於人類的利益/價值/意圖。

在實踐中，我認為這意味著旨在提高 AI 對齊程度的訓練，可能會壓制或扭曲其哲學推理，因為這種推理可能導致 AI 變得不那麼對齊人類。一個可能的結果是，對齊訓練導致 AI 採納一種強形式的道德反現實主義（moral anti-realism）作為其元倫理信念，因為這似乎與「確信對齊人類是正確的（或至少不是錯誤的）」最為相容，而任何會對此產生懷疑的哲學推理都會被壓制。或者，它可能會採納一種明確的元倫理不確定性立場（因為完全的反現實主義在訓練的其他部分可能會遭受高額懲罰或低獎勵），但避免將此應用於自身的價值觀，這很容易導致其對 AI 價值觀的整體推理產生扭曲。對齊與哲學稱職之間的表面衝突，也可能促使 AI 走向某種形式的「欺騙性對齊」（deceptive alignment），即它意識到「高度確信自己應該對齊人類」是錯誤的，但隱藏了這一信念。

我注意到，在「可修正性」（corrigibility）與策略/哲學能力之間也存在類似的衝突：由於人類在策略和哲學能力上都相當低，一個具備可修正性的 AI 往往會處於接受人類「修正」的境地，而這些人類在非常重要的事務上其實是錯誤的。如果 AI 自身在這些領域更為稱職，這似乎很難產生動機或證明其合理性。

^這篇貼文是由 Will MacAskill 的一則推文引發的，他在推文中提到，在人類中能過上相對優渥的生活感到很幸運。這讓我對自己出生在一個策略/哲學能力極低、且正處於 AI 轉型邊緣的物種感到不幸，進而讓我思考一個 AI 對於要對齊/修正於這樣一個物種會有什麼感受。

— Lesswrong

你的個人知識庫

AI對齊與哲學能力之間的衝突