動機性推理、確認偏誤與人工智慧風險理論

Lesswrong·大約 10 小時前

本文探討確認偏誤與動機性推理如何扭曲我們對人工智慧對齊與風險的理解，並指出這些認知限制在複雜思考中會產生加乘效應，阻礙我們集體尋求真相。

在卡尼曼（Kahneman）、特維斯基（Tversky）及其繼任者所發現的五十多種偏誤中，有四十九種是無傷大雅的小毛病，而有一種則正在摧毀文明。這最後一種就是確認偏誤（confirmation bias）。

— 摘自 Scott Alexander 對 Julia Galef《偵查員思維》（The Scout Mindset）的書評。

Alexander 進一步指出，這種偏誤是社會極端化的根源，它扭曲了我們的信念，並讓我們彼此仇視。除非一個人真的很笨，或者為了掩飾自私而撒謊，否則怎麼會相信如此迥異的事實？我認為，關心真相的聰明人之所以會持續相信相互矛盾的事，很大程度上是因為確認偏誤和動機性推理（motivated reasoning）。

在文明的各個角落中，我最擔心的是那些正在研究如何應對強人工智慧（AI）到來的人們。我認為確認偏誤讓我們每個人對自己關於對齊（alignment）和 AI 影響的信念產生了或多或少的過度自信，這對於集體尋求真相是非常不利的。儘管這個領域擁有強烈的求真價值觀，且對偏誤有相對較高的覺察，但我認為偏誤的影響依然強大且被忽視。在缺乏直接證據的地方，偏誤的影響力更大，而對齊理論和預測 AI 影響正是這種情況。

我認為這些影響被低估，部分原因是實證測量的效應值往往淡化了問題的嚴重性。確認偏誤發生在認知的多個階段，因此在進行複雜思考時，它會產生複合效應。

在本文中，我將討論相關的實證研究、用人類大腦思考複雜主題的挑戰，以及對 AI 風險和對齊思考的一些啟示。我曾在 2011 年至 2014 年間，於一項旨在理解情報分析偏誤的 IARPA 計畫中研究認知偏誤的大腦基礎。我對動機性推理產生了濃厚興趣，並將其作為研究興趣，直到 2022 年轉向對齊研究。

確認偏誤廣為人知，謹慎的思考者已經在努力避免其影響。但關於確認偏誤的機制解釋卻鮮少被討論。確認偏誤似乎是由幾種局部或部分理性的效應所引起的。^([1]) 主要來源似乎是動機性推理、不同的先驗信念、對證據的忽視以及連貫性偏誤（§2.4）。我將重點放在動機性推理，以及為確認偏誤提供溫床的認知限制或問題複雜性。

理解我們的偏誤和局限並不能治癒它們，但這是修正和規避它們的開始。

確認偏誤在群體和個人的認識論中可能扮演著重要角色。在特定任務上測得的效應雖然適中，但在複雜問題中會產生複合影響。研究已經證明，在選擇證據或論點、評估它們以及記憶它們時，都存在確認偏誤。此外，評估時的框架和假設選擇，以及權衡某些專家的證據和意見優於他人的社會效應，也會產生偏誤。這構成了五層偏誤可以級聯或複合的結構，而且在每一層，偏誤通常都朝著同一個方向推進。第 4.3 節包含了一些對總複合確認偏誤效應值的粗略估計；根據你對去偏誤思考的謹慎程度，這些數值從「巨大」起跳。

我最近意識到，動機性推理正阻礙我寫這篇文章。我擔心寫得不好，反而讓讀者對這個主題本身產生反感。這種恐懼給了我一個負面的獎勵信號，因為動機性推理可能是對齊思考中的一個主要因素，而我非常在意我們集體能否把這件事做對。

為了消除我殘餘的恐懼：我並不是在告訴任何人他們對 AI 影響或對齊的看法是錯誤的。儘管對這些問題進行了大量的思考和研究，我對真相究竟為何並無把握。動機性推理很容易朝多個方向發展。它可能僅僅是出於對光明未來的嚮往；也可能源於對某種理論或群體成員身份的依附，或是源於一種「有遠見」或「敢於直面毀滅」的身份認同。

這些確認偏誤的來源是根深蒂固且難以修正的。我不認為我已經修正了自己所有的偏誤，但我認為這種努力是值得的。我不知道你在修正動機性推理和其他確認偏誤來源上投入了多少精力，但我懷疑對大多數人來說，仍有許多唾手可得的成果和益處。我將在最後一節討論其中的一些並進行更多推測。

1.1 動機性推理^([2])

確認偏誤是一種讓我們不理性地偏袒既有信念的效應。動機性推理是導致該效應的原因之一。簡單來說，它是我們傾向於相信那些令人舒適或有用的事物的傾向。在這種意義上的動機性推理很大程度上是無意識的。這個詞有時被用來指代刻意選擇性地呈現證據和論點，但在本文和學術文獻中，動機性推理指的是一種意外的、潛意識的偏誤。

在這裡，我主要探討科學或專家社群（特別是 AI 風險社群）內部的動機性推理和其他確認偏誤來源。同樣的偏誤來源對公眾輿論的影響可能更大，但我基本上將其視為另一個獨立的主題。

核心問題在於，我們的推理受動機引導，這是透過強化學習實現的。得到正確答案通常是有獎勵的，但得到我們出於其他原因喜歡的答案，或是同儕喜歡的答案，同樣也是有獎勵的。^([3]) 我們的大腦混合了這兩類獎勵的預測。每一種信念的形成，部分取決於通往它的路徑是否讓人感到舒適。

「等等！」你可能會說。「我關心真相！我不會只相信舒服的事！」

是的，這部分正確。相信在困難時仍應尋求真相，確實能對動機性推理產生一定的抵抗力。求真者有時會享受改變主意的過程。但這並不意味著免疫。理性主義者仍有情感，而且認為自己已經是對的通常更舒服，因為我們是熟練的推理者，已經洞察了真相。

動機性推理就像是在可能證偽你所珍視信念的證據和論點周圍，形成了一個微型的「厭惡場（Ugh field）」。會有一種不愉快的反獎勵感信號，提示你去思考別的事情。這可能由一個閃過的念頭或預先習得的聯想產生。兩者都會做出準確的預測：這個念頭可能會導致你不得不承認自己錯了，並需要做大量工作來重新評估所有相關信念——這兩者都是負面的獎勵預測。心靈會扭曲並避開不愉快的結論，而且是在有意識地面對它們之前就這麼做了。

這是大腦估計預期結果價值並以此引導決策的自然結果。這些決策包括關於關注什麼的微觀決策。我曾撰寫和合著過綜述這些神經科學背景的論文，但它們主要是為神經科學家寫的。因此，我推薦 Steve Byrnes 的效價系列（valence sequence）；它完美地描述了心理層面，而且儘管他沒有直接談論多巴胺驅動的強化學習大腦機制，但他正是基於這些機制。他是一位出色的作家。

在研究這篇博文的過程中，我轉而更加重視確認偏誤的其他原因和認知限制。還有其他原因，如忽視證據和假設連貫性，這些在某些情況下或局部是理性的。由於動機性推理是我最熟悉的領域，我保留了較多相關討論，但我確實學到了一些關於其他半理性原因的有趣事物，並將嘗試分享。我們將在第 2.4 節討論每一種原因，並在第 5.1 節討論補償策略。

動機性推理在某種重要意義上也是理性的。假設某個信念對你的日常生活真的沒有影響，比如是否存在溫馨的來世，或者兩個相似的政黨中該投給哪一個（這幾乎永遠不會改變任何結果）。在這裡，理性的兩種定義（認識論理性和工具性理性）發生了分歧：相信真相現在與做有效的事相衝突。顯然，說你相信你的朋友和鄰居所相信的事會更有效，這樣你就不會與他們爭論，當你需要幫助時，他們也會更支持你。

如果我們有無限的認知能力，我們可以一邊相信真相，一邊聲稱相信任何有效的事。我們可以追蹤所有的證據，而不是挑挑揀揀。但我們的認知能力並非無限。

我們的認知限制為確認偏誤創造了肥沃的土壤。當我們進行複雜思考時，會做出許多決策和快速判斷，而每一個決策都是動機性推理和確認偏誤影響思考的新途徑。這些效應可能會在推理的各種類型和階段中複合。在討論完關於確認偏誤效應的研究後，我會再回到這一點。

因此，即使對於虔誠的求真者來說，動機性推理、確認偏誤以及由此產生的部落主義（tribalism）都是重要的因素。

識別動機性推理、確認偏誤和認知限制有一些缺點也有一些優點。你可能會失去一些得來不易的自信感。^([4]) 但它讓我們能將那些與我們意見相左的人更多地視為同樣出發點良善但感到困惑的靈長類同胞，而非不誠實或心懷惡意的對手。它也提供了補償自身偏誤和限制、以及與他人溝通的途徑。

2. 確認偏誤的實證證據

這是我對整體文獻的看法；下文將討論幾個具體的範例研究。

當問題簡單且主題不帶有情感色彩時，確認偏誤產生的效應較小。當問題複雜且在情感層面很重要時，它會產生較大的效應。不幸的是，對齊等廣泛問題正是如此。

被界定為動機性推理的研究可能捕捉到了多種因果效應。因此，我在確認偏誤的大框架下討論它們，然後單獨分析其中有多少實際上可能源於動機。

我們可能希望專業知識能減少確認偏誤，但實證結果似乎並非如此。有人擔心，在某些情況下專業知識似乎反而會產生更多的確認偏誤（例如 Kahan 的「動機性數感」及許多其他研究）。幸運的是，這些效應並未被成功複製；但不幸的是，學科知識、智力或領域技能通常也無法減少偏誤。這些特質提供了更多修正偏誤的方法，但也提供了更多為我們的結論辯護的認知工具。

按照行為心理學標準，相關效應屬於中等至較大，且在不同條件下差異巨大。從直覺上看，它們通常沒那麼大；在一些相關案例中，對於選擇、評估和記憶，效應大約在 10% 左右。但由於這些效應發生在認知的每個階段，它們會產生級聯或複合效應。每個階段都是下一個階段的輸入，因此效應大致是相乘的；參見第 4.3 節對複合後總效應值的粗略估計。

研究人員通常區分三種類型的效應：評估證據、選擇證據和記憶證據。《動機性推理的機制》（Epley & Gilovich 2016）和《政治判斷中的黨派偏見》（Ditto et al. 2023）是該主題良好的入門綜述。

2.1 評估證據中的偏誤

這種效應通常透過詢問人們認為某些證據或論點有多好來研究，並比較有動機認為其有說服力的人與有動機認為其無說服力的人。如果人們認為與其動機或信念一致的論點/證據比不一致的更有效，則被視為偏誤。在心理學術語中，這些效應是「中等」的，評分差異通常在 8%-16% 左右（例如在七點李克特量表上，對「評估此證據的品質」給出 3.5 分 vs 4 分）。這是對一項近期政治偏見研究元分析中不太直觀的 r=.25 和 D=.5 的粗略平均轉換。我透過查看該元分析中少數研究的標準差來估計平均效應值。我相信它很接近事實。

足夠接近就夠了，因為這還不是最大的近似值。在此處和其他地方，效應值的不確定性次於猜測該效應如何從實驗室條件推廣到相關的現實世界條件。研究設計和受試群體各異，沒有一個能完全捕捉我們真正關心的條件。但科學就是如此。我提到的效應已經過廣泛複製；當我意識到某些研究線索可能無法推廣或捕捉我在此探討的底層原因時，我已經放棄了它們。

我們可能會懷疑修正 10% 左右的偏誤是否值得。但這似乎是確認偏誤在各處理階段複合之前的效應值。更複雜且重要的結論，如「我的研究結果意味著什麼」或「我的政治信念是什麼」，可能有更多確認偏誤複合的機會，也有更多接觸外部證據和論點的機會。詳見第 3 節。

隨著思考的深入和信念的增強，效應可能會變得更大。《政治信念評估中的動機性懷疑》（Taber & Lodge 2006）發現，在給予受試者更長反應時間的情況下，那些擁有強烈信念和較多學科知識的人，其效應達到 30% 到 40%，儘管實驗指令要求他們在評估論點和證據品質時「放下情感」並「保持客觀」。這幾乎是確認偏誤的最壞情況，但它也是對產生這些偏誤的思維模式最仔細的分析。

他們記錄了反應時間，隨後要求受試者寫下這段時間內產生的所有想法。那些信念最強、知識最豐富的人，在思考與其信念不一致的論點上多花了 25-50% 的時間（平均 22 秒），而這些額外的思考大多是貶低。平均而言，對反方觀點進行「鋼人化（Steelmanning）」以及批評己方論點的想法，每個論點大約只有半個，而對不一致論點的貶低性想法則超過 6 個（由評分員評定）。知識較少、信念較弱的人較接近對等，但貶低不一致論點和支持一致論點的想法仍是大約三倍。

我們不是政治學導論課的大學生。我希望我對良好的認識論有更多的思考和重視，並養成了更好的習慣。你可能也是。但我注意到，當我遇到與我信念不一致的論點時，我的思緒會朝這個方向衝去。我可以把它們拉回到對論點進行鋼人化的軌道上，但我懷疑當我沒有密切注意時，我有多少次是意外地陷入了這種模式。如果你花時間在上面，對證據的評估可以變得任意複雜。如果你讀到一個不錯但未完成的論點，在決定如何更新你的信念之前，你可以進行任意的一系列操作，包括回顧你最喜歡的一些反駁論點。這可能導致虛假更新（fake updates），即遇到新證據反而導致我們回顧舊有的有利證據並據此重新更新。

我們曾一度認為這是致命的；存在一種「反彈效應（backfire effect）」，即呈現多個平衡的證據來源反而加強了既有信念。幸運的是，這被證明是真實但罕見的；它奇怪地僅限於伊拉克的大規模殺傷性武器問題；在甚至相當類似的情況下都未能複製（Wood & Porter 2019）。但主要效應得到了穩健的複製：當論點能導向令人舒適/肯定的結論時，人們會認為論點更好。

要充分評估這些結果與你或你在對齊研究領域的同事有多大相關性，需要確切了解這些研究是如何運行的，以及針對哪類人和主題。我已經指出了一些特別顯著的點，但要全面理解需要閱讀每項研究。為了代替閱讀，這裡有一個適用於我引用許多研究的通用描述，以備你需要這種深度。

實證研究確認偏誤的通用方法

動機性推理和確認偏誤的研究幾乎總是使用相當簡單的實驗室任務。在 2005 年之前的早期工作中，受試者通常是大學生。這些學生有時會獲得少量報酬，但更多時候是為了獲得導論課程的學分而被要求參加多項研究。在較近期的工作中，雖然仍有時使用學生，但更多使用線上調查服務。受試者群體各異，通常是因對快速計件工作的微薄報酬感興趣而被選中。

存在許多不同的範式，但這裡是一個最典型/規範的匯總。首先，詢問受試者的背景信念或歸屬（通常是政治方面的），通常使用 1-7 分的量表（從強烈同意到強烈反對）。然後研究人員詢問他們對某些相關主題的看法（通常使用相同的量表，例如某項公共政策的有效性）。接著，要求受試者選擇一些論點或證據來查看（例如，列出四個相關文章標題，要求他們點擊並閱讀其中一個）。

受試者偏好查看一致的證據或論點（支持其測得或估計的信念，例如其所屬政黨的典型觀點）被評分為選擇證據中的偏誤。詢問他們該證據或論點有多好或多重要，則測量了評估證據中的偏誤。詢問他們的看法發生了什麼變化，則測量了整體的確認偏誤。這是透過比較他們在看到證據/論點後的看法變化，相對於那些具有不同信念/動機的人來計算的。最後，研究可能透過延遲後的召回測試來測量記憶中的偏誤。

廣義上的證據評估可以擴展到選擇用於評估證據的框架或假設；詳見第 3 節和第 4.1 節。然而，上述研究通常沒有給予足夠的時間，或詢問足夠深的問題，讓這些框架效應成為核心。

總之，評估證據中的偏誤是一個真實存在的效應；很難猜測這平均有多強，以及它如何應用於對齊問題的謹慎思考者。其影響將取決於我們在補償和鋼人化方面有多謹慎。我猜測，即使在與其他認知步驟的偏誤複合之前，這預設就是一個巨大的效應。

2.2 選擇證據中的偏誤

選擇證據中的偏誤更難被解釋為局部理性。它更有可能是由動機性推理或簡單的聯想處理偏誤引起的。

一個早期的測試是沃森選擇任務（Wason card sorting task）。受試者被要求測試一個抽象規則，如「所有正面是元音的卡片，背面都是奇數」，然後展示四張卡片，他們可以翻開卡片來測試規則。《沃森選擇任務：元分析》（Ragni et al., 2017）對 228 個實驗進行了分析，顯示 89% 的人選擇了肯定的卡片，而只有約 25% 的人選擇了否定的卡片；根據實驗者預期的解釋，肯定的卡片並不能提供有用信息。這是一個巨大且相當純粹的確認偏誤演示；它似乎主要由認知的聯想本質驅動：「元音……奇數……好，我就翻這幾張。」

該效應可能包含一些從經驗中錯誤推廣的假設，如「規則可能也意味著奇數背面不能有輔音」以及「如果值得一提，元音和奇數可能是罕見的」。參見 Oaksford & Chater 1994 對這些假設作為理性的辯護；我認為這些解釋解釋了少部分效應，大部分巨大效應仍屬於純粹的聯想思維。我們注意到腦海中出現的事物；這種確認偏誤的原因甚至不是局部理性的。《意識形態貝氏主義者》是一個簡短精闢的論述。

在與複雜信念形成更直接相關的測試中，選擇證據中的偏誤同樣具有巨大的效應值。一項元分析《感到被證實 vs 保持正確：信息選擇性接觸的元分析》（Hart et al. 2009）發現，在選擇一致 vs 不一致證據（通常來自文章或論點標題列表）時，平均勝算比（odds ratio）為 1.92。選擇支持自己觀點的證據數量幾乎是反對觀點的兩倍，這很可能會使結論大幅偏向確認（或動機，在兩者罕見分歧的情況下）。

但選擇證據中的確認偏誤相對廣為人知。你可能已經在努力補償它。如開篇引用所言，確認偏誤在理性主義圈子中很有名，而選擇性地查看證據是一個相當明顯的陷阱。如果你高度意識到確認偏誤對選擇證據的影響，你可能會透過確保尋找那些背離你偏好目標的來源和證據，來避免許多選擇效應。

然而，當你在內部選擇論點或證據時，可能更難察覺到偏誤的選擇。上文引用的 Taber & Lodge 自我報告表明，基準線是高度偏誤的。考慮到內部選擇證據的自由度，動機很容易獲得實質性的影響力。認真努力地對反方論點進行鋼人化應該能實質性地抵消這種效應，但這需要時間並養成習慣。

2.3 記憶證據中的偏誤

我沒有深入研究關於記憶效應的文獻，它們不像評估或選擇那樣被廣泛研究。我查看的效應範圍從對一致/肯定證據或論點的記憶力提高約 10%，到沒有效應，甚至反轉（不一致的證據/論點記得更好）。稍後會詳細討論這種偶爾的反轉。但這個效應值來自提示召回（cued recall）的研究；受試者被提示去嘗試記住他們之前接觸過的一組論點。它並不測量自由召回（free recall），或我們傾向於自主記住哪些論點。同樣相關的是像 § 2.1 中 Taber & Lodge 研究那樣的有限工作，其中人們報告當他們思考如何評估某些證據時，腦海中會浮現哪些想法/論點。他們報告了更多一致的論點，特別是來自更博學和投入的人。召回過程本身可能是受動機驅動的；目標往往不是「記住一些論點」，而是「記住論點來證明這個令人惱火的觀點是錯的」。

除了對記憶與我們信念一致的論點有明顯偏誤外，我認為我們有時可能會記住針對我們偏好立場的最令人惱火而非最好的反駁論點。這可能會在我們腦海中運行某個立場的論點和反論點時，影響偏誤的複合方式。記住情感顯著的反駁論點可能會導致我們在審視反方立場時，因回顧其最差論點而意外地對其進行「稻草人化（strawmanning）」。或者，如果我們對最好的論點最感情感投入，這種動機性記憶偏誤實際上可能抵消確認偏誤並導向真相。

2.4 確認偏誤效應的其他因果解釋

當我為了這篇博文重新審視這個主題時，我發現了一些傳統上歸因於動機性推理的確認偏誤效應的新解釋。這些包括：

來自不同先驗信念的更新
對來自意識形態對立來源證據的忽視
連貫性作為一種有用的推論偏誤

《如何區分動機性推理與貝氏更新》（Little 2025）提供了一個形式化證明。對於任何我們只有動機代理指標而信念未知的效應（例如，知道某人的政治派別），都存在一個「完全貝氏等效（Fully Bayesian Equivalent）」的代理人，它會產生完全相同的可觀察信念。這個代理人有不同的先驗，但沒有動機。更新的差異完全來自其先驗。《動機性推理的懷疑意義》（van Doorn 2023）和《氣候變遷中動機性推理的證據》（Druckman & McGrath 2019）也提出了類似觀點。選擇性審查和信念極化看起來像是基於不同先驗的理性更新。然而，這些更新的全局理性是可以質疑的。這些模型有時需要對不同先驗做出強烈假設。而且，如果一個過程會導致兩個同樣聰明且「理性」的代理人，僅因其碰巧先接觸到的證據和社交關係不同而產生分歧，那麼稱其為完全理性似乎是錯誤的。

確認偏誤還有另一個可能的因果機制：表徵/世界模型的連貫性，在多方面起作用。參見《邁向偏誤推理的通用框架：基於連貫性的推理》（Simon & Read 2023）。我認為這在機制上是正確的，雖然我有偏見；我過去曾與 Steve Read 合作，並且師承自建構此解釋的「聯結主義（connectionist）」學術傳統。簡而言之，連貫性通常是一種非常有用的推論偏誤，但它會產生確認偏誤。

原因的確切組合很重要，但它次於「存在強烈的確認偏誤以及對連貫或舒適信念的偏好」這一事實。確認偏誤效應的替代解釋改變了我們對抗這些偏誤的方法，但並未改變效應是否存在。「理性」偏誤（如不同的先驗和忽視否定證據的來源）僅在某些高度可疑的假設下才是局部理性的，即假設我的先驗和我的內群體更好、更值得信賴。假設這種認識論運氣（Epistemic Luck）似乎是一個容易犯下的巨大錯誤。

2.5 動機性推理的實證證據

也有一些研究顯示，在先驗信念或忽視來源可信度無法合理解釋效應的情況下，動機性推理效應依然存在。這些是動機本身因果效應的更強證據。

《理解錯誤信息判斷中的黨派偏見》（Hubeny, Nahon & Gawronski 2026）使用了一種聰明的程序：他們進行人格測試，然後告訴受試者（虛假且隨機地）他們的人格符合某種國民性格，並將他們分配到「法國隊」或類似小組。他們發現了微小但高度顯著的效應，儘管該操縱產生的動機極小。《動機性推理與沃森選擇任務》（Dawson et al. 2002）使用了同樣的對受試者撒謊的技巧，結果顯示，如果受試者被告知這會否定他們可能早逝的證據，或否定關於他們的負面刻板印象，他們正確尋求否定證據的可能性會大大增加（約 15% vs 50%）。《關於偏好與先驗》（Celniker & Ditto 2024）顯示，當科學研究的結果與受試者的政治和信念不一致時，相對於不知道結果的基準線，他們對研究方法的評分要低得多。他們明確測量了先驗信念，發現其效應與偏好是分開的。

由於舊研究的問題直到最近才被認識到，直接證據相當有限。它足以提供指示，但不足以完全以此建立解釋。總體而言，這些研究和我發現的其他一些研究表明，效應中很大一部分可能真的是動機性推理，但並非全部。在做出這個判斷時，我當然也賦予了我自己的先驗一定的權重，即基於機制描述和間接證據，預期人類大腦作為一個強化學習和尋求強化的系統，理應產生動機性推理。

在難以辨別真相、且偏誤可以在多個推理階段複合的地方，所有這些確認偏誤的原因預計都會產生更強的效應。

3. 人類認知能力在處理極複雜問題時的局限

確認偏誤的效應需要結合它所作用的認知「戰場」來理解。

面對複雜問題時的認知限制似乎也有些被忽視。假設聰明人只要用心就能理解任何事情，這更令人舒適也更容易。我認為這在極限情況下是正確的；只要投入足夠的工作和精確的近似，我們可以理解任何事情。但獲得可靠理解的困難是真實存在的，理解這些困難可以幫助我們更有效地理解世界。

當人類大腦處理對齊和預測 AI 影響等複雜主題時，過程可能包含許多偏誤可以進入的判斷調用。但相關證據是間接的。如果你的直覺與此相符，你可以跳過整個章節，只需記住以下要點：人類在處理複雜且開放式的「棘手（wicked）」問題時，推理是非常近似的，且包含許多基於直覺的判斷調用。因此，在 AI 進展和對齊問題上，確認偏誤和動機性推理可能有很大的發揮空間。

以下是本節其餘部分的論證結構。如果你想跟隨我的推導過程並了解一些研究，請繼續閱讀。

內省表明，我們並沒有系統性地更新複雜的假設結構
更不用說準確地加總所有可能的不同結構了
我們對專家直覺的了解表明，我們的潛意識（系統 1）可能並不比有意識（系統 2）做得更好
貝氏推理是有限的
它不涵蓋創建假設及其間的因果鏈結
也不涵蓋想出用於更新的似然率（likelihoods）

3.1 內省表明模糊的模型與更新

你能為一個複雜且重要的問題列出你的貝氏假設空間嗎？例如你為什麼在做現在的工作，或者你對 AI 結果的預測？你是否覺得自己正在更新一組如下圖所示的假設？我不覺得。

來自 https://swantescholz.github.io/aifutures。這是一個用於計算你的 AI 結果機率的互動工具。

如果你花 30 秒思考你對某個偏好的複雜主題的模型，我認為你會很清楚地發現，並沒有一組定義明確且離散的假設，以及一路通向證據的因果鏈。如果我嘗試檢查我的假設空間，它是相當模糊且不一致的。

這不一定是個問題。離散假設本來就不太符合世界的結構，而大腦進化的目的就是為了在複雜的世界中運作。因此，我們可能希望大腦能在我們的意識之外處理這類更新。不幸的是，它可能正在進行非常近似且不完整的更新，因為那並非潛意識過程所擅長的事。

3.2 直覺 vs. 分析——證據與大腦機制

直覺或系統 1 處理很大程度上是無意識的，而分析或系統 2 處理則更容易被我們的意識察覺。任何具有一定複雜性的因果推理通常都是系統 2 處理，即一系列習得的系統 1 認知行為。「Claude 的新憲法讓我稍微更新了對開發者認真對待對齊問題的看法，這讓我降低了災難發生的機率」是極簡系統 2 處理的總結。但更新的幅度不會被很好地校準，因為它是透過系統 1 在單一步驟中完成的。

大腦被設計成執行類似最佳推論的任務，但僅限於某些類型的推論。大腦機制是為了猜測附近是否有捕食者等任務而進化的，而不是為了回答「我現在應該做什麼工作，以優化我們從 AI 進展中獲得良好結果的機會」這類問題。

系統 2 並非我們的強項；它是相對較晚的進化適應。它有效，但很笨拙。進化的大部分精力都投入到了系統 1 處理中。這裡不是進行完整機制論證的地方，而且在大腦功能的那個層面上尚未達成完全共識，所以我不會在這裡浪費你的時間討論更多我的大腦功能理論。

但我們可以求助於關於直覺何時可靠、何時不可靠的實證工作。《直覺專業知識的條件：未能達成分歧》（Kahneman & Klein, 2009）是我特別信任的一類研究：這是一篇專家整合綜述，基於兩位起初觀點似乎對立的學者合作，共同尋找共識點。^([5]) Kahneman 和 Klein 確定了良好專家直覺的三個條件：環境必須具有穩定的規律性、專家需要有足夠的練習來識別它們，且回饋必須迅速且清晰。他們舉出的符合這些標準的領域包括象棋、消防和某些醫學領域。而長期地緣政治預測、臨床心理學和選股則不符合。

我認為可以放心地將廣泛的對齊和 AI 預測問題加入到直覺效果不佳的領域清單中。這些領域遠非擁有迅速且清晰的回饋，而是幾乎沒有回饋。

超級預測（Superforecasting）可能被視為一個反例。Tetlock 的「良好判斷計畫（Good Judgment Project）」顯示，某些人透過使用特定的認知策略（如將問題分解為組件、頻繁更新和校準信心），其表現始終優於未經訓練的專家。我們正在嘗試做這些事情來預測 AI 影響並思考對齊問題。但超級預測者能夠利用大量歷史案例的回饋來學習。我們關心的 AI 影響和對齊挑戰尚未發生。

《直覺專業知識的條件》中一個有趣的討論是，在許多回饋較差的領域，專家的預測甚至不如算法——甚至是 80 年代那些非常簡單的算法。人類專家的變異性很高；例如，法官可能會根據某人故事或舉止的某個細節來預測累犯率，而對其過去行為的描述被證明更具預測性。超級預測者在他們練習過的領域可以預測得更好。超級預測技能可能無法很好地推廣到對齊和 AGI 等領域，因為這些領域沒有可用於練習的訓練集。相對於超級預測者訓練過的問題，這些問題很大程度上是分佈外（out-of-distribution）的。那些問題通常是短期的，且大多不涉及黑天鵝事件。參見這篇文章了解更多。

3.3 貝氏推理是理想，而非方法

如果你已經意識到將貝氏方法應用於複雜問題的局限性，你可以跳過這部分。這在其他地方已有論述；《反對強貝氏主義》、《貝氏：某種大成之作》以及《近似貝氏推理》的引言是三個極佳的來源。

人類似乎不可能在完全意義上「成為貝氏主義者」，因為我們根本沒有足夠的認知馬力來吸收並正確權衡所有相關證據。如果不花費過多的系統 2 處理時間，我們就無法在所有可能的假設空間中正確更新。我們在複雜領域中能做到多好的近似，尚未得到深入研究。

問題不僅在於我們難以進行準確的貝氏更新，儘管確實如此。如果證據是壓倒性的，那也沒關係。但在複雜領域中，更新中的錯誤會傳播並淹沒複雜數據中的微小信號。

一個同樣或更大的問題是，貝氏推理本身不足以理解我們複雜的現實。現實並不會預先包裝成假設供我們評估。選擇因果模型是大部分的工作所在，而神聖的貝氏牧師，甚至是其更老練的現代追隨者，對於如何做到這一點幾乎無話可說。

可以選擇足夠寬泛的假設來涵蓋重要問題，但這會帶來另一個問題。假設你選擇了寬泛的假設「AI 對人類會有好結果」，然後根據 Claude 的新憲法這一證據進行更新。要進行貝氏更新，你必須估計 p(憲法 | AI 好結果) 與 p(憲法 | AI 壞結果) 的比率。這顯然是一個相當隨意的猜測。

另一種方法是建立更精細的因果模型。這會讓根據證據進行更新不再僅僅是猜測，但會引入準確傳播信念更新的挑戰。如前一節所述，這並非我們的大腦在沒有大量努力和技能的情況下能做好的事。在複雜模型中傳播信念更新可能是一項可以培養的技能，但我看到人們寫這類內容的方式表明，他們的更新大致和我的一樣近似。

3.4 AI 風險是複雜的

我們也可以從另一面來看待這個問題。觀察問題的複雜性有助於我們理解為什麼我們有限的大腦難以有效地處理它。

對齊領域中看似局部的朋友問題，往往對來自其他領域的相關問題有著複雜的依賴。選擇一個有用的研究議程取決於專業的技術問題，但也極大地受益於擁有一個關於首批 AGI 將如何構建和部署的模型。而更廣泛的全球戰略問題則完全取決於那個問題。那個核心問題——變革性 AI 將如何運作和被使用——包含了來自許多領域的問題。它要求我們成功地將這些領域的工作推演到從未存在過的條件下。

你不需要解決所有這些相鄰的難題就能回答一些較容易但用處較小的問題。「這條研究路線是否能幫助對齊基於大語言模型（LLM）的 AGI」僅涉及少數領域。但如果我們允許自己考慮，與其他領域和子領域的聯繫會迅速增加。而對於那個真正重要的問題——「我應該做什麼來讓 AI 發展順利」——它確實觸及了所有這些領域中的開放性問題。

我認為，對於我們投入大量時間並積累了知識和專業技能的特定範圍問題，我們可以有理由地感到相當自信。我的擔憂是，更大的問題需要整合許多領域，而這個問題具有「盲人摸象」的特性。我們每個人在某些相關問題上都有專長，但並非全部。因此，我們傾向於過度應用自己的專業來理解整個問題（就像摸到大象腿的人認為它是棵樹，以此類推）。

我們知道自己知道多少，但幾乎根據定義，我們並不知道所有我們不知道但與問題相關的事。因此，我們幾乎不可避免地會低估我們所不知道的事，以及它們與問題的相關性。這似乎很可能讓我們過度自信。

我們中沒有人能聲稱在所有相關領域，甚至在我們主要領域的所有子領域中都擁有專業知識。即使有人真的設法獲得了足夠的專業知識，將所有碎片整合進準確的模型中將是另一個龐大的工程。如果有人設法完成了這一切，他們仍必須寫得足夠清晰，以說服其他所有人相信他們已經弄清楚了發生了什麼！

這些問題是已知且被認可的。參見這份簡短的 LessWrong 帖子註釋書目。^([6]) 我看到一些謹慎的思考者經常承認他們的模型不確定性，但這相當罕見。（我擔心我們只是沒有聽到一些在認識論上更謹慎的人的聲音；這是另一個獨立的問題）。但我也看到非常老練的推理者未能承認或表達他們的不確定性。我也抓到自己這樣做。這似乎產生了大量的內耗和令人困惑的爭論，人們爭論的是確定性的程度，卻被誤認為是在爭論該方向的主要論點（而且這種混淆似乎在兩個方向上都在發生）。

在客觀論點之外做出或吸收認識論註釋需要更多的時間和注意力。即使我們決定優先考慮認識論的清晰度，也有許多思維習慣需要記住和培養。但在 AI 預測和對齊這類不確定性巨大且對決策至關重要的主題上，我認為這種努力通常是值得的。

總之，預測 AI 進展和理解 AI 的複雜性創造了更多需要判斷調用的必要性，而確認偏誤可以在這些地方複合。

4. 確認偏誤的複合

確認偏誤的原因在思考複雜問題的不同階段發揮影響。每個階段都為下一個階段提供輸入，因此每個階段的偏誤效應必然與後續階段的效應複合。目前還沒有研究捕捉到這一切的淨效應。因此，我們只能對確認偏誤和動機性推理的總體影響進行粗略估計。該估計必須考慮到跨多個推理階段的複合效應。

我們可以對複合的結構進行一些非常粗略的猜測。我們至少有五種類型的推理似乎可能產生複合效應：

選擇框架/假設空間
選擇證據/論點
評估證據/論點
記憶證據/論點
證據/論點的社會來源

我們在複雜領域中得出信念的過程尚不清楚，而且對個人而言可能相當多樣且獨特。我不知道有任何研究曾嘗試詳細模擬這一點。關於大腦如何做到這一點的理論工作相當有限；這是我從事神經科學時的主要興趣，雖然我認為我了解大致輪廓，但這對於構建某人花費數週或數年思考重要主題的因果模型並無太大幫助。

因此，我們需要其他方法來猜測偏誤如何在複雜認知中聚集。觀察兩次使複雜推理顯性化的嘗試可能會有所幫助，這有助於思考在建立一個複雜主題的完整模型時所涉及的許多（許多）決策。

我們將更多地關注框架和社會效應，因為確認偏誤的其他切入點已在第 2 節中涵蓋。

4.1 框架/假設選擇與專家間自信分歧的例子

我將使用兩個例子。兩人都對理性與認識論的嚴謹性進行過仔細思考。這對例子具有雙重作用，因為它也說明了我試圖在本文中間接解決的核心問題：專家在關於對齊和 AI 進展的關鍵問題上存在分歧。我們最好的思考，即使是在理性主義社群內部，也沒有產生趨同。它導致了我認為是誠實的分歧，但雙方都確信自己是正確的。這似乎是我們迄今為止最好的認識論的一次戲劇性失敗，且在應用於對齊時可能會導致我們的覆滅。

我的例子是 Nate Soares 的《AGI 毀滅場景是可能的（且是析取的）》 (2022) 和 Joe Carlsmith 的《尋求權力的 AI 是否構成存在風險？》 (2022)，儘管還有許多此類例子（例如，Paul Christiano 在某些方面與 Soares 形成了更好的對比，但我不知道他曾在哪裡嘗試以這種方式傳達他的因果模型；他的《我對「毀滅」的看法》 (2023) 更多關注結論）。這兩者大約都是毀滅機率（p(doom)）模型，但結構非常不同。儘管兩位作者展示的內容已經很複雜，但他們都表示這些只是其心理模型的戲劇性簡化。

與 Soares 的析取（disjunctive）模型（見下文）相反，Carlsmith 的因果模型是合取（conjunctive）的。他提出了 AI 災難必須發生的六個步驟：

開發出先進 AI，
給予其危險水平的權力，
它具有對齊錯誤的目標，
這未被修正，
它尋求權力，且
這導致存在性災難。

他為每一步分配機率，並相乘得出約 5% 的 p(doom) 作為合取乘積（2023 年更新為 10%；我想知道他現在會怎麼說）。他對每一點進行了廣泛討論，但沒有提供進一步的形式結構。

另一方面，Soares 表示，如果我們很快開發出 AGI，毀滅是析取的；成功需要滿足所有這些條件：

世界的整體狀態必須使得 AI 可以被部署來讓事情變好。

技術對齊需要解決到好人可以部署 AI 來讓事情變好的程度。

相關組織的內部動態必須使得組織部署 AGI 來讓事情變好。

非結構化的子要點（每個標題下約十個左右）說明了為什麼他認為每一項都不太可能。他估計的 p(doom) > 90%。

他們的框架似乎與他們的結論掛鉤。合取模型將成功視為基準線；它詢問在出現毀滅可能性之前需要發生什麼。析取模型則詢問，一旦我們擁有了超越人類的 AI，為了避免預設的毀滅，需要哪些事情進展順利。

估計每個組成假設的可能性本身就相當複雜。每篇論文都深入探討了其中的邏輯，但自然沒有為做出這些估計提供進一步的形式結構。整合每個假設的證據需要某種複雜因果模型與鬆散估計的結合。這些估計越鬆散，就越容易受到動機性推理和確認偏誤的影響。

我可以讓這兩個框架趨同並符合我對風險的整體估計，但這需要花費一番功夫。如果我不是明確以趨同為目標，接受任何一個框架都會將我的估計沉重地推向光譜的任一端。

尋找框架效應的實證證據並未發現任何足夠接近、值得作為實證估計的內容。在這裡，我認為做一個猜測比從那些並未真正觸及我們試圖理解的複雜信念形成的實證研究中進行推廣要好。

我不認為 Carlsmith 或 Soares，或像他們這樣的思考者，被這類框架束縛住了。剛開始考慮這些問題的新手可能會被他們選擇的第一個框架強烈偏導其結論，但任何閱讀過一些反駁論點並認真對待的人，至少可以嘗試換個框架。因此，我認為專家思考中框架偏誤的問題，圍繞著我們從不同角度考慮問題時切換框架的頻率和流暢度。如果我們做得好，我們就能按其本意應用論點和證據。如果我們做得不好，我們就有可能因為論點在我們自己的框架內顯得無關緊要或愚蠢而丟棄它們，儘管當以他人的框架解釋時，它們是有效且有用的。

框架的選擇至關重要，也是有效的分析對象。僅僅存在替代框架並不要求我們必須認真對待它們。但如果沒有嘗試認真對待它們的能力和習慣，我們就有可能在不該忽視它們時忽視了它們。當我們這樣做時，我們會因為錯誤應用某些證據和論點而高估我們的確定性。

我認為這既是選擇框架力量的一個例子，也是問題相對於我們思考和溝通能力之複雜性的一個例子。溝通方面提供了另一個確認偏誤可以複合的層次。

4.2 確認偏誤的社會複合效應

確認偏誤可以在志同道合的人之間複合。我不會長篇大論，因為這是廣為人知的。我們常說回聲室（echo chambers），並希望能採取步驟來避免它們。但即使你刻意查看與你意見相左的人的信息，也很難避免社交網絡效應。參見《逃離回聲室》了解理性主義相關的論述。

即使我們努力透過關注多樣化的意見和證據來避免回聲室效應，仍存在微妙且難以修正的迴響式確認偏誤來源。我們應該在綜合考慮的信念中包含專家的意見。而且我們應該給予專家的建議比其他人更高的權重。但我們對其專業知識相關性和廣泛程度的估計，本身就是有偏誤的。這產生了回饋效應和第二層確認偏誤。

在歸因專業知識和可信度時的確認偏誤，為我們看過的每一種其他效應創造了另一個偏誤來源。我會傾向於偏好我更尊重的人所呈現的證據和論點。回想起一個專家，然後回想起他們的論點，是記憶偏誤的另一個切入點。因此，心靈之間的確認偏誤來源似乎與其他來源依序運作，因此與它們大致是相乘關係。

作為第一步非常粗略的近似，我們可能預期人際社會效應與確認偏誤的內部原因大小相似。社會影響施加了第二組動機，從而產生偏誤。社會影響也可能透過突出受尊重專家的信念來喚起獨特的先驗。如果我必須在查看證據之前做個猜測，我會猜測在每一步都會施加額外的確認偏誤，其程度與主要效應相似但略小，因為尊重和群體歸屬的動機效應很強，但二手採納先驗可能比個人先驗的影響力小。

我後來發現的證據並未否定這個非常粗略的猜測。但證據有限，且我尚未對相關文獻進行徹底閱讀，因此這仍是一個猜測。

4.2.1 評估證據時的社會效應

偏好來自你喜歡或尊重來源的證據是月暈效應（The Halo Effect）的一種形式。Byrnes 的效價系列（引言中也提到過）直觀且引人入勝地描述了我們的價值或品質估計如何在人和想法之間傳播。

評估證據時的社會或月暈效應在實證上與內部確認偏誤的大小相當。一項元分析 (Ou & Ho 2024) 估計了一系列研究中一般來源「可信度」對證據評估的影響。他們發現整體解釋了 6.5% 的變異量（r=.25），但專業知識僅解釋了約 3%。一項較早的元分析對主要不同的研究進行了分析，發現各類別解釋了 4.5% 的變異量（r=.21），但專業知識解釋了 16% (Wilson & Sherrell 1993)。研究樣本的不同可能是這些截然不同估計的原因。這突顯了特定方法間的巨大變異性，以及猜測效應如何推廣到現實世界情況的困難。

使用現實世界來源和信息/證據的調查結果顯示出更強的相關性。Ou & Ho 匯總的研究顯示出更大的相關性，受試者對來源的評分解釋了其對證據品質評分變異量的 25%。但這部分是非社會性偏好的產物。人們喜歡與自己意見一致的人，而意見一致的人傾向於呈現一致的證據。因此，這種相關性既包含了評估證據時的個人確認偏誤效應，也包含了社會效應。巨大的相關性似乎表明了社會偏誤的額外效應。它還表明內部和社會確認偏誤的總效應很大。

然而，那些效應值並非我們真正想要的。理想的研究應該針對我們最關心的人和問題。即使只是猜測這些研究如何推廣到特定群體和問題，也需要更詳細地描述這些元分析中的研究。它們的方法各異，其效應值並不能被統計匯總很好地捕捉。要充分描述它們，需要閱讀足夠大樣本的研究以做出更好的估計，而我還沒有花時間這樣做。

根據僅閱讀少數組成論文的猜測，我會將這些效應定在 10% 左右。這與我在閱讀更多資料後對評估證據時確認偏誤效應的估計相似。當然，效應將高度取決於具體情況，以及個人在多大程度上努力避免這種效應。（我懷疑在評估證據時避免社會偏誤，比避免內部偏誤更難且更少見）。

4.2.2 選擇、記憶和框架證據時的社會效應

偏誤的社會效應超出了我之前的專業領域。在花了幾天時間研究選擇和評估證據時的社會效應後，我停止了閱讀更多內容以對其餘效應值做出粗略估計的嘗試。

根據我所做的搜索和閱讀，關於社會/聲譽效應對選擇證據影響的文獻似乎出奇地匱乏。人們似乎很可能選擇他們尊重的人推薦的證據或論點，但我一直沒能找到沒有重大干擾因素（confounds）的良好研究。關於 Facebook 連結和點擊率有很好的研究，但那些干擾因素很多。點擊連結可能是出於想和推薦該來源的朋友聊天，或是將其推薦視為信息。大多數避免了該干擾因素的證據選擇研究，並沒有測量受試者實際上有多喜歡/尊重推薦者，而只是給予一個微弱的誘導，如「強森博士是該領域的專家」。這種操縱可能無法喚起我們對自己領域和社群領導者的那種尊重感。

算法產生的效應與我們實際的社會影響平行。除非我們非常勤奮地阻止，否則許多平台上的算法會向我們展示與我們觀點一致的人的信息。但我並非試圖在這裡解釋算法效應。它們在科學中扮演的角色比在政治中少。而且解釋它們將開啟一個全新的研究計畫。

在沒有深入研究相關文獻（如果它們確實存在的話！）的情況下，我猜測源於社會/聲譽原因的確認偏誤與 §2 中討論的內部效應大小相似。社會因素在每個領域都創造了動機和先驗的第二個來源。我會傾向於假設我尊重的人是判斷哪些證據值得查看（選擇）及其價值（評估）的良好裁判，而他們的呈現將引導我的記憶。當我透過他們的重述吸收證據時，我會部分採納他們的信念和框架。

當然，這種邏輯太過模糊，無法做出精確估計，但粗略的費米估計（Fermi estimates）是一個開始。我們可以嘗試細化那個非常寬泛的「每一項都加倍」，但這可能不值得費心，因為我們已經處於費米估計的領域了。（我的初步分析顯示，向上移動和向下移動的可能性一樣大：選擇時的社會效應可能更大，因為他們直接把證據或論點放在你面前；評估時可能較小，因為你並不完全認同他們的信念；而記憶效應可能更大，因為思考個人的論點是情節記憶的一個有用線索。基於此，我堅持「大致等於個人確認偏誤」）。

讓我們簡要回顧一下，因為我們正在重新使用這些估計。內部確認偏誤效應適中，為 0-40%，但最常為 8-16%；§2.1。在選擇證據方面效應非常大（根據一項元分析，一致來源是不一致來源的 1.92 倍）；§2.2。對於證據記憶，效應為中等（~10%）到零，在某些情況下甚至反轉；§2.3。然而，記憶也可能偏向於令人惱火的反駁論點，導致對另一方進行稻草人化。因此，我保留 10% 的記憶偏誤，並認為這對功能性角色來說可能是一個低估。假設和論點的框架似乎可能產生巨大或極大的效應，但我沒有發現足以進行數值估計的實證證據，因此這仍是一個大膽的猜測；§4.1。

因此，作為一個非常（非常）粗略的估計，我們有兩組效應，一組來自我們自己的偏誤，另一組來自我們選擇信任的人的類似確認偏誤。

還有另一種做出這種猜測的路徑：觀察性研究。這同樣粗略，但在數量級上似乎與上述估計一致。

從觀察上看，社會和個人確認偏誤對信念的總效應在某些情況下是巨大的。考慮到美國極化的政治氣候及其對事實信念的影響。例如：在政治立場相近的人群中，與群體相關的事實信念差距可能巨大：PRRI 發現，在 2020 年大選是否被竊取的問題上，共和黨與民主黨之間存在 57 個百分點的差距；而一篇 2024 年的 Frontiers 論文發現，在氣候暖化是否由人類引起的問題上，存在約 40 個百分點的黨派差距。這不僅僅是社交網絡效應，但它可能接近這些效應與個人確認偏誤的總和。請注意，我這裡使用的社會效應包括證據來源的影響；偏誤的媒體來源被視為社會因素。在這種情境下，大多數人並不是很投入，更不用說是專家了。但這些事實問題遠沒有對齊和 AI 影響預測這些難題那麼複雜。

4.2.3 插曲：不要放棄尋求真相

偏誤無處不在！我剛剛把每個偏誤來源都增加了一倍。人們很容易對這一切置之不理，或者將其近似為「偏誤淹沒了證據」。我不認為這兩者是有用的。

我的結論並非認識論上的絕望或虛無主義：所有這些偏誤來源都可以透過努力來減少。靈長類認識論雖然困難但並非不可能。結論不是放棄了解事物，而是努力在可以有效抵消偏誤的地方採取行動，並降低我們的確定性，特別是在面對具有類似專業知識的「反共識」群體時。

4.2.4 社會信念傳染或信息級聯效應

除了放大效應外，確認偏誤還有另一個獨立的社會來源：認識論上的謙遜（epistemic modesty），或將他人的信念視為證據。這產生了「重複計算」的問題。如果我根據我尊重的專家 A 的信念更新了我的信念，然後其他人根據我陳述的信念和 A 的信念更新了他們的信念，他們就重複計算了 A 的信念。《理解信息級聯》簡潔地描述了這是如何運作的。

當我們處理整個社群時，這可能遠遠超出重複計算，因此它是複合確認偏誤效應的另一個強大來源。這個問題受到的關注少於回聲室或認識論泡沫效應。我認為這對於群體認識論來說是一個相當嚴重的問題。

在許多情況下，認識論上的謙遜似乎相當理性。很難爭辯說我們不應該權衡那些擁有更多相關專業知識、投入更多時間或原始智力更高的人的信念。^([7]) 如果我知道自己的專業知識遠不如我信任的某人，且沒有像他那樣深入思考過，那麼直接用他的意見代替我自己的意見會得到更好的結果。後來，當我的專業知識和投入時間接近他時，我可能仍會給予他的信念一些權重。我應該假設他看到了我沒看到的證據，即使我更信任自己的判斷。

因此，完全的認識論不謙遜似乎是不理性的。但我們公開陳述信念時的認識論謙遜會導致重複計算（實際上是多次計算）。

像《社會影響如何破壞群眾智慧效應》（Lorenz et al. 2011）這類研究，透過實驗展示了數學模擬和直覺所暗示的結果：讓大眾接觸他人的猜測會產生扭曲效應。實證顯示，這會讓平均和個人的估計變差，並將個人估計拉向極端。但我主要關心的效應更直觀：透過集群（clustering）產生的信心膨脹。如果其他人傾向於同意我，這似乎證明了我們集體相當有信心，因此可以對自己的結論有信心。但如果我們的信念是建立在彼此的信念之上，我們的共識程度就會超過我們的證據和論點樣本實際所暗示的程度。

這種效應取決於我們聽取和關注誰，而不僅僅是信念的原始分佈。因此，社交網絡效應可以扮演複雜的角色，特別是當透過線上算法和自選的線上信息來源過濾時。估計效應值相當困難，且會因每個人的認識論實踐而異。我從觀察圍繞對齊問題的公共討論中獲得的主觀印象是，這些效應在整體論述中是實質性的。

「重複計算」問題有一個部分解決方案，但似乎很少有人使用。謹慎的思考者有時會同時陳述「我個人的觀點」和「綜合考慮」的估計，後者會賦予他人意見一定的權重。如果我們能一絲不苟地這樣做，將在很大程度上避免群體確認偏誤的重複計算來源。當然，要完全關閉基於我們尊重的人的信念來更新自己的信念是不可能的；但我們可以對這些效應做粗略估計並嘗試調整。

我預計偏誤的認識論謙遜會使信念向更集群的分佈移動。我認為這可能已經發生在對齊領域，但這值得另寫一篇文章。

我認為這個問題對於群體認識論來說可能相當嚴重。當我回顧科學分歧的歷史時，我看到了這些效應以及其他社交網絡和動機效應。當然，我在那個方向上是有偏見的。請得出你自己的結論。

儘管認為這種效應巨大且重要，但我還沒有超出「額外的集群效應」這種模糊描述。我沒有在下面的數值模型中包含信念傳染效應。我直到寫這篇博文的後期才開始意識到它們潛在的重要性，而且我覺得自己沒有資格對平均效應做出哪怕是猜測。這將高度取決於你尊重誰、他們在你周圍的信念空間中處於什麼位置，以及你自己的陳述信念在多大程度上已經包含了他們的信念。一個更好的估計應該包含這個因素。這似乎值得另寫一篇文章。

目前，我會說：這種效應可能很重要，且高度取決於主題和個人。對於非專家來說，這種效應可能比其餘確認偏誤來源的複合效應還要大。

4.3 總複合確認偏誤的非常粗略估計

我曾猶豫是否要包含這一節。嘗試為這些主張賦予數值是充滿風險的。這樣做突顯了我認為偏誤效應有多大。我擔心讀者在面對這種規模的數字時可能會直接排斥這個想法。但使用數字是輔助嚴謹思考的一種手段，即使這些數字僅僅是數量級的近似。這就是我提供這些數字的初衷。

這些數字中巨大的不確定性可能會讓具有實證思維的人退縮。我認為這足夠重要，至少應該做一些粗略的計算。我不確定每種偏誤的大小，但我堅持認為某種形式的複合是很可能的。這使得每個階段的小效應堆疊成總體上的巨大或極大效應。你可以拒絕我的估計並代入你自己的。我歡迎關於如何建模偏誤複合方式的修正或建議。

在我的複合模型中，產生的偏誤效應是巨大的。我的觀點再次強調，並非在複雜問題上清晰思考是不可能的，而是為了做到這一點，理解並抵消我們的偏誤是必要的。有些思考者我認為幾乎完全沒有偏誤，他們似乎付出了非凡的努力和練習。我不屬於他們之列，我懷疑你也不應該。那些思考者的標誌是在複雜領域中表現出高度的對沖和不確定性陳述，即使他們是該領域的專家。

考慮到這一點，我必須強調我對這些估計是多麼不確定。我的目標是根據我所知且有幫助的實證文獻提供一個合理的範圍，並在其他地方給出直截了當的猜測。你可以用你自己的估計和猜測來替換我的。偏誤的實際程度會因情況和個人而異。我不認為任何人在這些類別中估計零偏誤是現實的。過度補償是可能的，但我懷疑是否有人真的這樣做了。而精確地補償到剛剛好似乎更不現實。

如何閱讀此表：

底線位於表格底部。它表示這種偏誤複合如何扭曲一個基於無偏誤證據評估本應是 1:1 或 50% 把握的信念。例如，第二欄的結果是將準確的 50% 把握在所有偏誤效應後膨脹到 69%。

偏誤以貝氏因子（Bayes factors）表示。這通常被用作一種簡潔的方式，來表達新證據在兩個假設間的貝氏更新中的效應。偏誤可以被表達為真實證據的一種膨脹形式。

在可行的地方，這個數值是根據我上面回顧的實證工作估計的；例如，12% 是我對評估證據偏誤研究中中位數的估計（§2.1）。這轉換為 1.12 的貝氏因子，假設對一致證據多出 12% 的估計品質或重要性會產生相應程度的傾斜。這些僅比費米數量級估計好一點。表格下方的可摺疊框中包含更多關於每一項的信息。

我包含了一個針對偏誤不完全相關的調整。每一步中的大多數（但非全部）偏誤都會朝同一個方向「推進」；例如，動機不一定與確認一致。我認為 .7 的相關性是一個低估。
你可以複製這個試算表並進行修改。關於我為何選擇這些值的更多信息請見下方的可摺疊部分。

階段	極謹慎的去偏誤者	謹慎的證據選擇者	典型思考者	受動機驅動、回聲室
選擇框架	1.05	1.25	1.25	1.5
選擇證據	1.1	1.1	1.9	2.5
評估證據	1.06	1.12	1.12	1.4
記憶證據	1.02	1.1	1.1	1.2
社會：框架	1.05	1.25	1.25	1.5
社會：選擇	1.1	1.1	2	4
社會：評估	1.06	1.12	1.12	1.4
社會：記憶	1.02	1.1	1.1	1.2
總貝氏因子	1.55	2.86	9.01	63.50
因素間相關性（猜測）	0.7	0.7	0.7	0.7
相關性調整後	1.39	2.30	6.60	44.70
最佳機率 p	0.5	0.5	0.5	0.5
偏誤後機率 p	0.58	0.69	0.86	0.97

沒有人會完全符合這些類別。第二欄是我對平均科學家的刻畫，他們會小心查看所有證據，但依附於自己偏好的框架，且不太注意動機性推理。第三欄模擬了平均的研究受試者；最後一欄則模擬了那些不為良好認識論付出任何努力的人。第一欄中模擬的極謹慎去偏誤者是我嚮往但尚未達到的狀態。在該領域中，我認為只有少數人能做到如此謹慎，但他們確實存在於各個陣營中。^([8])

還有許多其他的告誡和限定條件。一個主要問題是「選擇證據」在實際專家中的角色。專家通常至少熟悉其領域內開放性問題的所有主要證據和論點類型。對他們來說，選擇證據/論點更像是選擇哪些要認真對待並深入思考。因此，我懷疑選擇證據在決定專家對開放性問題的信念方面仍扮演著重要角色，但我並不確定，希望能有更好的模型和數據。

另一個主要問題是記憶效應是否應被視為與選擇證據複合。當你正在查看證據時，記憶並非因素。但我們經常在腦海中運行論點和反論點，這時記憶就變得至關重要。因此，我懷疑記憶偏誤扮演了重要角色，並將其列為複合因素。但其數值從我讀過的研究中看來是非常不確定的。

各偏誤水平的邏輯與證據

欄位/人格類型：關於偏誤如何被不同人以不同方式表達和控制的隨意猜測。每個人都會不同。關鍵問題可能是：你個人在多大程度上補償了來自每個來源的偏誤？
選擇：根據 §2.2 中 Hart et al. 2009 的研究，一致證據與不一致證據的比例為 1.92；謹慎的思考者可能會強迫自己閱讀各方大致相等的證據。
評估：1.12 是 §2.1 中 8-16% 平均值的中位數估計，1.4 是 Taber & Lodge 研究中強烈信念專家的上限（30-40%）。
記憶 1.10：如果我們包含對糟糕/令人惱火的不一致論點的偏誤，10% 似乎是一個低估；§2.3。
框架 1.25 / 1.50：純粹的隨意猜測！實證研究未提供估計。請代入你自己的猜測。這潛在影響可能很大，但謹慎的思考者通常至少偶爾會採用多種框架。
極謹慎去偏誤者欄：約為典型效應的 1/3，這是對真實且努力去偏誤之大致程度的猜測。
社會欄：「每一層大致加倍」是非常粗略的估計，基於這些是各領域中動機和先驗的獨立來源。記憶更具爭議性；我包含它是因為對論點的記憶通常是由對公共討論的記憶介導的，因此受到社會影響。
相關性調整：動機並不總是與確認偏誤推向同一方向，但通常如此。確認偏誤通常在每一步都推向同一方向，但某些中間步驟可能會帶著稍微不同的信念進行。.7 似乎是對這些因素相關程度的一個非常保守的估計。將總貝氏比率乘以該因子是另一個粗略但足夠接近的近似。

5. 啟示與補救措施

當我開始認為偏誤和認知限制是分歧的核心因素時，我經歷了一個有趣的轉變：我變得更喜歡人了。無論你認為構建 AI 的人是魯莽的，還是預測必然毀滅的人是歇斯底里的，將他們理解為有偏誤且會犯錯的人，似乎比假設他們無能或心懷惡意更仁慈也更準確。

從這個角度來看，分歧之所以持續，往往不是因為人們愚蠢或不誠實，而是因為情感障礙使得某些結論難以達成。減少這些障礙可能比增加更多證據更有用。

我經歷的另一個不太愉快的轉變是，看著我的許多信念在我自己的懷疑下減弱或蒸發。

令人不安的啟示並非某個特定群體是錯的，而是每個人的信心可能都太高了，在大多數事情上，在大多數時間裡都是如此。動機性推理根據每個人在情感上的利害關係將他們推向不同方向：他們的職業投資、他們的社群身份、他們對未來的恐懼，特別是他們尊重的人的意見（見 [效價系列] 4：喜歡 / 崇拜）。

強烈重視真相勝過便利或社會獎勵能產生一些對確認偏誤的抵抗力，但並不能賦予免疫力。

清晰傳達我們不確定性的一個啟示是，在重要主題上避免點估計（point estimates）和不加限定的信念陳述。謹慎的思考者經常提供一些對其信心的估計或估計手段（「我對此思考了一點/很多」或有時用「10-90%」來表達巨大的模型不確定性）。將機率估計表達為一個範圍似乎是包含模型不確定性的一種簡潔方式。

不確定區間陳述通常混合了模型不確定性和估計的內在不確定性；例如，「2-4 年」可能意味著你已經非常徹底地建模了所有因果因素，因此你高度確信更好的預測會非常困難；或者「2-4 年」可能意味著你對一個高度可知的量做出了隨意猜測。澄清是有用的；當我們並不確定卻聽起來很確定時，會使重複計算問題惡化，並使討論偏離我們原本不想做出的主張。

在思考或重複主張時，不確定區間經常被丟棄；例如，Daniel Kokotajlo 預測的自動化編碼時間表不僅僅是「2028 年中期」（目前），儘管它經常被這樣轉述；它是一個分佈。說「10-30% 的機會」或「1-4 年」比「大約 20%」或「大約兩年」更能讓人記住不確定性。參見 Ord 的《寬泛的時間表》了解更多關於包含時間表不確定性的重要性。除了他提出的觀點外，我擔心動機性推理正微妙地將我們的注意力從預測時間表分佈中較短的一端移開。

5.1 標準補救措施

這篇文章主要是關於識別問題。但我至少會提供一些關於我們能為該問題做些什麼的想法。這些想法是投機性的。

如果能確切知道我們的確認偏誤中有多少是由我們討論過的每個來源引起的，那將很有用。但這對於開始補償並非必要。

克服確認偏誤的策略是廣為人知的。但採用它們需要時間和練習。在花多少時間去偏誤，與在我們選擇的研究領域變得更專業以及在客觀層面思考問題之間，永遠存在權衡。

我們知道，吸收多樣化的證據和論點是得出真實信念的良好實踐。偏誤的大部分效應來自於選擇讀什麼、和誰交談，以及認真對待哪些反對意見。雖然沒有公式可以決定哪些值得你花時間，但努力避免我們選擇中的偏誤似乎是有用的。與我們意見相左的人建立溫暖的關係是困難的，但無論我們做到什麼程度，這在認識論和個人層面上都是有回報的。

採用「偵查員思維」是一種保持好奇心並努力學習的態度，而不是試圖說服他人你當前信念是正確的「士兵思維」。這似乎可能有助於抵消你的確認偏誤。但它似乎不太可能提供完整的解決方案。它可能會減少你「想要正確」的慾望，從而減少動機性推理效應，但不會消除它們。將其作為一種認知習慣來培養是一個值得投入的計畫。

鋼人化是另一種已知的技術，只要我們投入時間和精力，它應該能抵消確認偏誤。嘗試為一個我們不持有的立場構建我們所能想到的最好論點，可以利用我們的一些偏誤來對抗其他偏誤。嘗試徹底融入那套信念甚至可以補償一些由不同先驗驅動的效應。而想像某人會如何產生情感反應，可以產生同理心並對抗你自己的動機性推理。

5.2 動機性推理的補救措施

我要補充的主要一點是，意識到你和他人對討論和論點的感受是很重要的。

在動機性推理是一個強大效應的範圍內，關注感受和動機會改善群體認識論。改變想法與其說是透過用證據打擊他人，不如說是讓他們感到改變想法是安全的。《留一條退路》在個人層面上探討了這一點；將其應用於公共對話似乎很重要且尚未被充分探索。

我偶爾會注意到對參與某些論點的厭惡感。通常我可以將其追溯到我對提倡該立場的人的感受，或者如果那些論點很強大並迫使我的信念發生重大變化，我會有的感受。追蹤所有這些感受可能需要大量額外工作。我認為這是有回報的，因為它幫助我注意到我傾向於忽略不舒服論點的地方，但這確實需要時間並養成習慣。當然，我不知道我捕捉到重要偏誤的頻率有多高。

另一個主要因素，也是可能的干預點，是觀察你如何決定自己已經對某件事思考得足夠多了。Yudkowsky 對動機性停止和動機性持續的討論很好地解決了這一點。當你感到舒適時就停止，意味著你所有的推理在局部都是正確的，但仍然得出了你感到舒適的結論。我懷疑，當我們喜歡結論時潛意識裡想要停止的動機，是複雜主題上動機性推理的一個主要因素。在我們把主題擱置一段時間後，我們將無法像記住結論那樣清晰地記住所有的邏輯碎片。

其他一些特別相關的 LessWrong 帖子在註釋中有所說明。^([9])

真正享受「出錯」作為變得「不那麼錯」的一種手段應該會有所幫助。只要我們能做到這一點，它就會將動機性推理從確認偏誤的來源轉變為對抗其他偏誤來源的力量。關於準確性激勵的研究表明，當人們的動機是準確性而非身份防禦時，他們的推理會得到改善。

重視改變主意也可以在社群層面上實現。社會獎勵是真實存在的，多巴胺的釋放和清晰的行為效應證明了這一點。

認為情感可能沉重地左右推理的一個有趣推論是理性對話的一個候選原則：保持友善。這裡的友善並不是指在不同意時說同意；而是指努力不激怒他人，因為那會使他們對你所論證的想法產生偏誤。從這個角度來看，禮貌規範不僅是為了舒適或社群建設；細緻的禮節和慷慨是理性思考的承重結構。

供參考，以上內容的總結如下：

注意你的感受
特別是當參與討論感到不舒服時
嘗試享受出錯，將其視為變得更聰明的預兆
將機率陳述為範圍
嘗試記錄你在哪裡權衡了他人的信念
保持友善；不要讓他人產生反對你論點的動機

這些關於補救措施的想法是投機性的。請得出你自己的結論，並分享它們。

結論

這篇文章已經超出了最初對動機性推理的關注，擴展到了人類大腦如何處理超複雜問題的更廣泛問題。它在某些地方仍不完整，我歡迎修正和擴充。

你可以爭論個人偏誤效應的估計值。我希望你仔細地這樣做；那些估計高度不確定且需要改進。我堅持的主張是，偏誤的效應在複雜推理中會複合。

AI 風險是一個複雜的問題，而我們正試圖武裝著為了生存而構建的大腦來應對它。修正我們的局限和偏誤將幫助我們對 AI 做出更好的集體決策。

^(^)所謂局部理性，我指的是在給定一個人目前在客觀層面所知的情況下，其行為對於辨別真相是最佳的，但在給定一個人可以透過了解他人信念而推測出的情況下，則非最佳。如果你聽到了很多支持上帝的論點而很少有反對論點，那麼強烈信仰上帝可能是局部理性的；但如果你知道其他城鎮有一群無神論者，那麼這就不是全局理性的。
^(^)第 1.1 節和第 1.0 節開頭的三段改編並擴充自 2024 年關於動機性推理的一個簡短回答。
^(^)《人類決策的神經機制》 (Herd et al. 2020) 和《相位性多巴胺的系統神經科學模型》 (Mollick et al. 2020) 提供了關於多巴胺功能及複雜決策相關神經生物學實證文獻的概述和參考。
^(^)這篇文章是一個輕微的信息危害（infohazard）。閱讀它有讓你對自己的信念缺乏信心的風險。我推薦閱讀《不健全的均衡》（Inadequate Equilibria）中 EY 的《地位調節與焦慮性缺乏信心》，特別是如果你習慣性謙虛且有缺乏信心的風險。另一方面，不閱讀它則有讓你過度自信，且意識不到一個可修正偏誤來源的風險。這可能存在很大的個體差異；我猜測人類整體趨向於過度自信，因為我們不知道自己不知道什麼，而忽略這一點會高估我們所知道的。
^(^)直到讀完 Kahneman 和 Klein 的「未能達成分歧」很久之後，我才意識到這可能實際上是一個例子，說明具備偏誤意識如何能在不同的科學陣營和觀點之間創造更好的合作。這類工作很罕見，因此很容易這樣解讀。但這也可能是我這方面的動機性推理。
^(^)另見《實踐中擊敗厭惡場》中一個有趣且有用的綜述。《凝視深淵作為一項核心生活技能》似乎非常關乎為什麼以及如何克服動機性推理。作者透過看到少數人因質疑核心信念並改變主意而成就非凡，學會了重視「在重要信念上出錯」這一想法。
^(^)請注意，我主張對那些在當前問題上投入更多時間的人保持認識論上的謙遜。在可以練習的地方，練習似乎比原始智力更重要。以 IQ 或 g 因素衡量的智力是真實且重要的，但它大致是練習的一個乘數因子。

因此，在決定是否權衡某人的意見時，一個簡單的指標是「我認為這個人在學習這個主題上花了多少時間？」這很難判斷，因為他們背景專業知識的某些部分會比其他部分更相關，而且如果方向錯誤，投入的時間將相對無用，所以這是另一個判斷和偏誤發揮作用的自由參數。

即使對於像對齊這樣的全新問題，以「了解所有論點」形式存在的專業知識也是有效的，所以我仍然相信投入時間勝過原始智力。但對齊和 AI 預測不像大多數領域那樣「熟能生巧」，或者至少不那麼常出錯。重要的問題沒有真實的回饋機制，因為重要的預測以及可以說最重要的對齊問題，處理的是完全沒有密切先例的新事件。

^(^)在對齊和 AI 風險的樂觀/悲觀分歧雙方，都有具有謹慎認識論的謹慎思考者。然而，他們通常不會陷入極端，因為他們保持了大量的模型不確定性。
^(^)LessWrong 上有很多關於確認偏誤的內容，但關於動機性推理的內容較少。

與確認偏誤和動機性推理相關文章的註釋書目：

《將預測與目標尋求分開》「太長不看：將目標導向性混入旨在對可能未來進行求真的認知過程中，往往會破壞求真和對目標的有效追求。」將兩者分開雖然困難但很理想。

《不理性是社交策略性的》 Valentine，近期文章。未使用動機性推理（MR）術語，但描述了我們為何會預期這種情況。

《意識形態貝氏主義者》你注意到什麼或問什麼問題，即使使用完美的貝氏更新，也會產生截然不同的結果。

《族群緊張與毫無意義的爭論》關於角/光環效應（horns/halo effect），效價的另一種陳述。寫得很好。SSC Alexander。

《對「內生性認識論派系化」的評論》如果你是貝氏主義者，但對那些與你意見相左的人提供的證據有些不信任，派系會自發出現。

《陷阱先驗作為理性的基本問題》 Scott Alexander。主要例子：對狗的恐懼即使在狗從不咬人時也不會消失。他將此陳述為不確定的新理論。這種效應顯然發生在恐懼症中，在遇到對立信念時也可能在較小程度上發生。

《正面我贏，反面？——沒聽說過她；或者，選擇性報告與綠色理性主義者的悲劇》選擇性報告及其修正。Ruby 評論：如果你正在過濾自己的證據呢？

《動機性停止與動機性持續》摘自「反對合理化」系列。這是該系列中最接近直接探討動機性推理的地方。

《逃離回聲室 (2018)》「而且，在許多方面，回聲室成員遵循的是合理且理性的探究程序。」

《「別人錯了」vs「我是對的」》帖子內容更深入，但核心觀點非常相關。注意到別人在許多主題上肯定是錯的，比知道自己在複雜領域是對的要容易得多。

《政治是心靈殺手》經典的警告，反對政治例子，提到了動機性推理效應的強度，但未嘗試解釋它們。我擔心對齊難度和 AI 風險也正在成為心靈殺手。

《理解信息級聯》與對齊的部落觀點相關。信息級聯維基標籤有更多內容。當人們根據他人的信念進行更新時，就會發生信息級聯。這在局部是理性的，但仍可能導致自我強化的錯誤社群信念。

《智力的局限與我：領域專業知識》 主張具有適度智力的領域專業知識通常勝過才華橫溢。文章很短，但結尾對我最有價值。

《認識論運氣》社交路徑依賴的一記重擊：你向誰學習是你信念的一個巨大因果驅動力。接受你可能擁有糟糕的認識論運氣是顯而易見的結論。

《逐步更新你自己》為什麼一個反例不應該讓你翻轉，以及人們如何濫用這一事實來使心儀的理論免疫。

^(^)我對直覺 vs. 系統 2 分析的思考部分是由 Malcolm Gladwell 在《決斷 2 秒間》（Blink）中普及該主題而催化的，但他愉快地跳到了下一個主題，而沒有建立直覺何時很棒、何時完全誤導的標準。

— Lesswrong