正和惡性定律

Lesswrong·27 天前

曼海姆的正和惡性定律指出，在極化爭端中，若有證據顯示一方愚蠢、惡毒或邪惡，則另一方同樣如此的可能性也會隨之增加。這種現象是由篩選偏差、陣營污染和環境退化所驅動，對立的環境會引發雙方在推理與論述品質上的對稱性退化。

我經常在網路上遇到類似的論點：人們攻擊「他者」，並利用對邪惡行為的（正確）觀察，來聲稱自己的一方因此表現良好。人們往往想藉由指出以下這點來糾正這種想法：在兩造爭端中，一方的惡劣並不會在因果上使另一方變得更好，或者主張兩者的惡劣程度並不相關。

這種想法很有誘惑力，但卻是錯誤的——因為它們確實相關，只是方向相反，這引出了我的觀察：

曼海姆正和惡劣定律 (Manheim’s Law of Positive-Sum Badness)：在兩極化的爭端中，若有證據顯示一方是愚蠢、惡毒或邪惡的，這會增加另一方同樣如此的可能性。

正如名稱所示，惡劣並非零和遊戲：兩個陣營都可能愚蠢、推理拙劣、令人厭煩且/或事實錯誤，而且通常兩者兼具。該定律並非指雙方完全等同，被觀察到的一方理應承擔大部分的評價下修，但導致一個陣營功能失調的機制，往往也會延伸到另一個陣營。

其核心主張是貝氏機率（Bayesian）。觀察到關於 A 方的證據 E，會改變對雙方品質的後驗機率，對 A 的影響遠大於 B。但「正和」的主張不僅僅是相關性，這是一個博弈論觀點，即惡劣程度的增加具有因果性且是相互的。為什麼？梅西耶 (Mercier) 和斯伯伯 (Sperber) 的推理論證理論（《理性的謎團》，2017）暗示這些機制往往是對稱的：人類推理的演化是為了聯盟防禦和說服，而非追尋真理，因此在對抗環境下，退化更像是預期產出而非例外。尤德考斯基 (Yudkowsky) 早在「政治是心靈殺手」中就提出過相關但較少涉及博弈論的觀點：政治環境會觸發導向「贏得爭論」而非「更新信念」的適應行為，無論你站在哪一方都會發生。卡漢 (Kahan) 關於身分保護認知（2012-2017）的研究透過實驗證實了這一點——動機性推理並非智力的失敗，而是身分維護的預測產出，且在黨派群體間是對稱的。

但作為《古德哈特定律變體分類》的兩位作者之一，當我一提出這是一條定律，且人們開始評論其原因時，我意識到我需要一套不同機制的分類學，以及該定律失效的條件。由於現在是 2026 年，我寫了一些筆記並「氛圍編碼」(vibecoded) 了一篇文章來做這件事——隨後我進行了大量重寫。（是的，我主張頂尖的大語言模型在處理這類軟性領域的思考上仍不如我，它產出的分類組織混亂且充滿重複。）

因果變體

這些也是我最初思考的情況，即這屬於博弈論範疇，一方的行為主動導致了另一方的退化。

升級失敗的三重奏

我們有三種關於行為傳播的類似失敗變體，雖然它們相關，但文獻記載和升級的確切時機有所不同。

傳染與模仿 (Contagion and Imitation)

首先，策略會在敵對聯盟之間傳播。如果一方採用扭曲、憤怒策略或純潔性測試，另一方往往也會採用——不一定是出於刻意策略，而是因為這些策略有效，且聯盟會適應他們注意到的獲勝手段。

塔德 (Gabriel Tarde) 的《模仿律》（1890）在網路傳染模型出現前一個世紀就確立了模仿作為社會傳播的主要機制。很久以後，吉拉爾 (Girard) 的模仿理論（《暴力與神聖》，1972；《自創世以來隱藏的事物》，1978）指出競爭從根本上是模仿性的：隨著對抗加劇，對手會趨向於模仿彼此的策略和道德失敗，因為對抗結構本身就會產生模仿。讓-皮埃爾·法耶 (Jean-Pierre Faye) 的馬蹄鐵觀察（《極權主義語言》，1972）——即對立的政治極端在言論和策略上趨於一致——作為實質意識形態的主張雖有爭議，但作為關於策略和言論傳染的具體主張則更具說服力。

謝里夫 (Sherif) 的羅伯斯洞穴實驗（1954）是由實驗者促成的，他們因污染科學而該下地獄——但其目的是為了實證這一點，並展示群體間的競爭會使雙方都退化。事實上，一旦你了解了實際發生的情況，它顯示出不僅僅是競爭，還需要特定的環境才能讓人們彼此變得惡劣。這意味著如果你看到一方這樣做，就暗示了這種環境的存在。正如我們稍後將討論的，這通常是因為有人（無論是行為不端的所謂科學家，還是試圖以社會和諧為代價最大化參與度的平台）正積極試圖讓每個人的認識論變得更糟，社會變得更具爭議性。

診斷：特定策略的傳播是否可以按時間順序從一方追溯到另一方？

反彈與反應性變形 (Backlash and Reactive Deformation)

一方的極端主義會產生激勵，促使對手過度修正：簡化論點、捍衛可疑的盟友、壓制內部批評。如果對手看起來足夠危險，足以證明「關起門來團結一致」是合理的，這種錯誤就會發生。這裡的退化是反應性的而非模仿性的，但從外部看結果很相似。

一個多世紀前，齊美爾 (Simmel) 在《衝突》（1908）中指出，激烈的衝突會同時強化群體內部的統一，並提高對內部異議的不容忍——將反應性行為轉化為持久的內部規範。最近，諾艾爾-諾依曼的沉默螺旋（《傳播學雜誌》，1974）描述了感知的外部威脅如何產生內部從眾的社會壓力，對稱地使每個聯盟內的溫和派噤聲。庫蘭的偏好偽裝（《私人真理，公共謊言》，1995）詳細展示了這種連鎖反應：強加於異議者的聲譽成本導致每個人的公開表達向極端移動，這又提高了周圍人的成本，最終產生的公眾輿論與任何人的私下信念都大相徑庭。弗雷德 (Freyd) 的 DARVO（否認、攻擊、反轉受害者與加害者；1997）描述了出現的對抗結構：反應性升級被重新定義為原始冤屈，產生了競爭性的受害者敘事，雙方都將自己最糟糕的行為視為對對方先前惡意的回應。而列維茨基 (Levitsky) 和齊布拉特 (Ziblatt) 的《民主國家如何死亡》（2018）則表示，反彈動態會雙向侵蝕：一旦一方引用對方的先前違規而放棄制度約束，雙方的約束都會崩潰。

診斷：最糟糕的行為是否在內部被辯解為對敵對方的必要回應？

對稱軍備競賽動態 (Symmetric Arms-Race Dynamics)

退化可能源於相互升級，每一方都採用日益激進的策略，因為克制在戰略上顯得不利。這種互動可能陷入一種平衡，雙方的表現都比他們個人所希望的更糟——不是因為任何一方想要這個結果，而是因為單方面降溫很困難。

理查森 (Richardson) 的數學軍備競賽模型（《軍備與不安全》，1960）將此形式化：每一方的侵略性投入程度是另一方的函數，在缺乏外部約束的情況下，結果是失控的升級。謝林 (Schelling)（《衝突策略》，1960；《軍備與影響力》，1966）分析了為何單方面降溫在結構上是困難的——這需要可靠地放棄約束對手的承諾。艾瑟羅德 (Axelrod) 的《合作的演化》（1984）展示了合作平衡的可達成性與脆弱性：背叛連鎖一旦啟動，就很難退出。安全困境（Herz, 1950; Jervis, 1978）展示了個人的防禦舉動如何對另一方顯得具有威脅性，從而產生作為理性自我保護副作用的升級。列維茨基和齊布拉特的「憲法硬球」(constitutional hardball)——技術上合法但違反規範的舉動，會引發鏡像反應——捕捉到了政治版本，其中維持合作的非正式約束被每一方對另一方舉動的局部理性回應逐漸摧毀。

診斷：降溫的嘗試是否在內部被視為背叛或軟弱？

對抗性與中介因果關係

衝突通常透過媒體、演算法或機構中介進行——而這些中介會獎勵某些行為：憤怒、絕對肯定、言論侵略性。即使平台並非如上所述積極追求破壞，雙方也會適應相同的激勵結構，即使雙方最初都沒有意圖要競相沉淪。

波茲曼 (Postman) 在《娛樂至死》（1985）中指出，早在演算法放大延伸相同邏輯的幾十年前，電視就已經將政治論述重構為娛樂和情感簡化。派瑞澤 (Pariser) 的《過濾氣泡》（2011）和桑斯坦 (Sunstein) 的《#共和國》(2017) 記錄了推薦機制如何平等地獎勵所有參與者的憤怒，無論其實質立場為何。Scott Alexander 的剪刀式陳述 (scissor statements) 概念觸及了更深層的機制：平台透過演算法選擇那些旨在產生最大分歧和相互不理解的陳述，同時塑造雙方的環境。布蘭多里尼定律 (Brandolini’s Law)（約 2013 年：「反駁廢話所需的能量比產生它所需的能量大一個數量級」）解釋了為何成本結構推動兩個聯盟轉向惡意產出——反駁成本高昂，產生廢話成本低廉，且雙方都平等地面臨這種不對稱性。RAND 在 2016 年描述的虛假信息消防栓 (firehose of falsehood) 模型，與蘇聯的反射控制 (reflexive control) 密切相關，記錄了在國家規模上刻意利用這種不對稱性，最終如何導致受眾無論政治傾向為何都產生認識論上的放棄。

診斷：同一批參與者在技術或私人場合是否比在公共論述中明顯更謹慎？

激勵中毒（或：對抗性環境衰退）

在之前的案例中，我們暗示雙方都沒有意圖競相沉淪。當然，情況並不總是如此！具體來說，上述討論的環境衰退失敗並非獨立於爭論之外。早期的研究假設這些變化是無意且結構性的。但我們也看到，行為者可以主動構建或修改環境，使敵對一方或雙方因惡劣行為而獲得獎勵——憤怒激勵、捐贈者激勵、將對手推向極端言論的聲譽懲罰。

在這種情況下，目標聯盟內的溫和派可能被迫參與他們私下厭惡的行為。舉一個或許過於精準的例子，如果某個明確站在政治光譜一側的人主動購買並重寫了社交媒體平台的規則，就會發生這種情況。這就是為什麼 Musk 購買前的 Twitter 很爛，而他很大程度上反轉了環境惡化的方向——不是透過改善環境，而是透過反轉被針對的一方。

診斷：參與者是否顯得被懲罰溫和派的激勵結構所推動？是否有人正在構建該結構以加速不和？

挑釁與陷阱設置 (Provocation and Trap-Setting)

一方可能故意挑釁過度反應——憤怒誘餌、敘事陷阱，或強迫對手捍衛站不住腳的主張。由此產生的退化部分是人為設計的，而非偶然。

尤金妮·史考特 (Eugenie Scott) 為吉什奔騰 (Gish Gallop)（1994，以創造論辯論者 Duane Gish 命名）一詞定名，指用大量似是而非的主張淹沒對手，使其在有限時間內無法一一回應——無論其論點優劣，在結構上阻止有效的回應。Shackel 的護城河與貝里教條 (motte-and-bailey doctrine)（《元哲學》，2005；由 Scott Alexander 的 2014 年文章普及）命名了鄰近的陷阱：提出一個具爭議性的立場，在受到挑戰時退縮到可防禦的後備立場，並在挑戰過去後回到爭議立場。李奧·史特勞斯 (Leo Strauss) 的訴諸希特勒 (reductio ad Hitlerum)（1951）和高德溫法則 (Godwin’s Law)（Godwin, 1990：隨著任何線上討論變長，出現希特勒類比的機率趨近於一）共同描述了升級歷史類比的陷阱——援引最糟糕的歷史人物強迫對手在挑釁者設定的條件下進行交流。同樣地，弗雷德的 DARVO（1997）描述了另一半：發起者轉而聲稱自己是受害者，為最後表現得最委屈的人產生不對稱的聲譽籌碼。

診斷：某些行動是否主要作為試圖產生令人尷尬的回應而存在？

定律何時不適用

各種結構都有其實際限制，因此我們警告不要粗心地套用。有時，論述的花園被維護得很好，雙方並非相關對稱。

低兩極化與共享規範。 當參與者共享共同的證據或裁決規則時，退化不一定會傳播。正式辯論場合、科學社群和專業標準可以維持較高品質，即使外部政治緊張局勢很高。（至少只要並非所有科學家或專業人士都在社交媒體上。）

強大的制度。 法院、監管機構和運作良好的專業機構通常會約束雙方的行為。當這些約束真正穩固時，一方的功能失調並不意味著另一方也會如此，而且並非巧合的是，雙方都不太可能背叛。

邊緣與廣泛聯盟。 如果一方是少數極端分子派系，而另一方規模龐大且內部多元，則不太可能出現對稱退化。觀察到的惡劣可能僅反映了引起關注內容的選擇偏誤。當然，如果一方的主流吸引了極端分子，這可能會回歸到上述的回應動態。

不對稱的道德底線。 有時一方確實是在追求更糟的目標或使用系統性更糟的策略。再次舉一個不公平但切中要害的例子，如果一方不介意人類滅絕，就會發生這種情況。如果動態如此，該定律僅微弱地暗示了對反對派的次要且較小的評價下修。另一方面，這仍可能使行為不端者獲益；泰特洛克 (Tetlock) 的研究（《政治專家的判斷》，2005）發現了一種向虛假對稱過度修正的系統性傾向——老練的觀察者有時會過度套用修正啟發法，最終處於比天真觀察者更缺乏校準的位置。

宣傳抽樣。 主要取自剪輯片段、憤怒合集或黨派宣傳的證據不具代表性。在這些情況下，評價下修應該針對證據來源的可靠性，而非爭端的任何一方。蓋曼健忘效應概括了這一點：在一個領域檢測到的扭曲應該引發廣泛的懷疑。赫爾曼 (Herman) 和喬姆斯基 (Chomsky) 的《製造共識》（1988）記錄了即使沒有刻意圖謀也會產生扭曲的系統性選擇過濾器。

動機性援引

最後，最大的誤用風險是該定律變成一種完全通用的反駁論點 (fully general counterargument)——你可以針對任何你想拒絕的結論使用它，無論證據實際顯示了什麼。如果你是以動機性行為者的身份參與這場遊戲，「另一方也這樣做」就是病態的版本。

如果有人作為某一方的黨徒援引此定律，將其作為對手也很糟糕的理由，這應該引起你的警覺，並有理由懷疑其誠意，而非導致你對另一方產生負面評價。

參與討論

https://lesswrong.com/posts/HZCEoFRKdzFAKcgFj/the-law-of-positive-sum-badness