運用模糊邏輯從說謊者悖論中挽救數學的真理

Lesswrong·5 個月前

本文探討了嘗試利用模糊邏輯來解決說謊者悖論與塔斯基不可定義性定理的努力，特別審視了哈特里·菲爾德對盧卡西維茨邏輯的分析，以及該理論最終因格雷格·雷斯托關於量詞的否定性結果而遭到捨棄的過程。

摘要：^([1])

塔斯基的不可定義性定理表明（在某些合理的假設下），任何語言都不能包含其自身的真理概念。這個極其違反直覺的結果開啟了幾代人的研究，試圖通過謹慎地捨棄塔斯基的一些假設來繞過該定理。

在哈特里·菲爾德（Hartry Field）的 《從悖論中拯救真理》（Saving Truth from Paradox） 一書中，他考慮並捨棄了一種基於盧卡西維茨邏輯（Łukasiewicz logic）的真理理論，稱其為「迄今為止最成功的理論」（在書中當時已考慮的眾多理論中），並列舉了它的許多優點。該理論被捨棄是由於格雷格·雷斯托（Greg Restall）的一個否定性結果，該結果表明帶有量詞的該理論版本必須是 ω-不一致的。

我們認為這種放棄過於草率。盧卡西維茨邏輯的成功在於假設了真理的「中間值」，從精確位於真與假之間的 $1/2$ 值命題開始，最終延伸到整個實數連續統 $[0,1]$。為什麼要止步於此？我們提出了一種基於非標準分析的理論變體，通過引入實數之間的真值（例如 $1-\epsilon$），來避免格雷格·雷斯托的悖論。

塔斯基定理

塔斯基研究了*真理謂詞（truth predicates）*這一課題。其核心思想是擁有一個 $T(「s」)$，如果 $s$ 是一個真實的句子，則該謂詞為真，否則為假。（$T$ 是一個作用於數字的函數，而 $「s」$ 是 $s$ 的哥德爾編碼，即一個編碼了 $s$ 符號串的數字。）這被形式化為塔斯基 T-模式（Tarski's T-Schema）。對於每個句子 $s$，我們將此公理添加到形式系統中：

$T(「s」) \iff s$

在古典邏輯框架下，塔斯基證明了 T-模式與一個稱為**對角線引理（diagonal lemma）**的技術假設是不相容的。對角線引理指出，對於任何可定義的謂詞 $P(.)$，我們都可以構造一個句子 $s$，使得以下成立：

$s \iff P(「s」)$

也就是說：$s$ 準確地表達了「$P$ 對於 $「s」$ 為真」。（這個等式與之前的模式不同，因為它適用於任何謂詞 $P$ 而不僅僅是 $T$，但僅適用於某些特殊的 $s$ 而非所有句子）。

這種自指句子聽起來可能是不合法的，但哥德爾在他對不完備定理的證明中的一項重大貢獻，就是證明了這實際上很難排除：對角線引理對於大多數感興趣的公理系統都是可以證明的。

如果對角線引理成立，且定義了一個滿足 T-模式的謂詞 $T$，那麼可以推導出 $\neg T$（非真）也是可定義的。這意味著存在一個句子 $\lambda$ 使得：

$\lambda \iff \neg T(「\lambda」)$

這個句子被稱為「說謊者」（Liar）。非正式地說，它對自己說「這個句子不是真的」。

利用 T-模式和古典邏輯，我們可以從 $\lambda$ 的存在推導出矛盾：如果它是真的，那麼它必須是假的；如果它是假的，那麼它必須是真的。因此，塔斯基將經典的說謊者悖論形式化了。

我們得出了一個矛盾。我們所做的假設是不相容的。我們應該拋棄哪一個？

塔斯基得出結論：$T$ 在該語言中必須是不可定義的。這沒問題：沒有統一的「真理」概念，只有「針對某一語言的真理」。塔斯基定理表明，任何語言都不能包含其自身的真理謂詞；相反，語言形成了一個層級結構。要討論一種語言中陳述的真理性，你必須上升到「更高階」的語言。例如，要討論皮亞諾算術（Peano Arithmetic）的真理謂詞，我們可以在策梅洛-弗蘭克爾集合論（Zermelo-Fraenkel set theory）中進行。

並非所有人都對這個解決方案感到滿意。不滿之處在於，這與我們在自然語言中使用「真」的方式不太吻合。至少在直覺上，在英語中，我們可以對任何英語句子詢問「它是真的嗎？」。塔斯基的理論說我們不應該那樣做；我們錯了。說謊者悖論的論證確實有效，所以我們需要放棄我們天真的真理理論。

這引發了一系列試圖拯救天真真理理論的研究。通常，人們希望通過放棄古典邏輯來保留 T-模式和對角線引理。

我們將重點關注一種被提議的特定邏輯。

盧卡西維茨邏輯

對說謊者悖論的一種常見回應是在語言中增加第三個真值，為了鋪墊，我們將其稱為 $1/2$。說謊者句子 $\lambda$ 既不是真（1）也不是假（0），而是獲得中間值 $1/2$。盧卡西維茨邏輯 $\text{Ł}$ 是增加額外真值的多種方法之一。$\text{Ł}_2$ 是正規的古典邏輯，而 $\text{Ł}_3$ 具有介於真假之間的第三個值。

不幸的是，儘管這解決了說謊者悖論，但 $\text{Ł}_3$ 會受到另一個悖論的影響，在該悖論中，我們構造了一個句子，它聲稱自己既不是真的，也不是半真的。我們再次陷入了沒有一致選項的境地：如果該句子是真的或半真的，那麼它就是完全假的；但如果它是完全假的，它又是真的。

我們可以添加第四個值（例如 $1/4$）來嘗試解決這個問題，但同樣可以應用相同的通用策略（造一個句子聲稱它既不是真的，也不是半真的，也不是四分之一真的）。通常，這種產生悖論的策略被稱為加強版說謊者（Strengthened Liar）。只要 $n$ 是大於 1 的自然數，$\text{Ł}_n$ 就會受到加強版說謊者悖論的影響。

幸運的是，我們可以通過在 0 和 1 之間添加無限多個真值來解決所有的加強版說謊者悖論。

連續值盧卡西維茨邏輯

我將通過把聯結詞定義為實值函數來描述 $\text{Ł}_\infty$ 的語義。這裡，$v(s)$ 是句子 $s$ 的真值。

真值公式	根據前項定義
$\bot$ (謬誤)	0
$a \to b$ (蘊涵)	$\max(0, \min(1, 1 - v(a) + v(b)))$ <br> 即：$1 - (v(a) - v(b))$ 限制在 $[0, 1]$
$\neg a$ (否定)	$1 - v(a)$ (即 $a \to \bot$)
$a \lor b$ (弱析取)	$\max(v(a), v(b))$ (即 $(a \to b) \to b$)
$a \land b$ (弱合取)	$\min(v(a), v(b))$ (即 $\neg(\neg a \lor \neg b)$ 德摩根定律)
$a \oplus b$ (強析取)	$\min(1, v(a) + v(b))$ (即 $\neg a \to b$)
$a \otimes b$ (強合取)	$\max(0, v(a) + v(b) - 1)$ (即 $\neg(a \to \neg b)$)
$a \leftrightarrow b$	$1 -
$\forall x. \phi[x]$ (全稱量詞)	$\inf_x v(\phi[x])$
$\exists x. \phi[x]$ (存在量詞)	$\sup_x v(\phi[x])$ (即 $\neg \forall x. \neg \phi[x]$)

如果你不熟悉，「inf」取一組值的下確界（infimum）：小於或等於集合中所有值的最大值。同樣，「sup」取上確界（supremum）：大於或等於集合中所有值的最小值。在使用實數時，下確界和上確界保證存在。（這就是為什麼在這裡使用實數而不是有理數是有意義的。）

你會注意到析取和合取已分為弱版本和強版本。如果你熟悉線性邏輯（Linear Logic），事實證明盧卡西維茨邏輯是它的一個特例。如果你想對這類邏輯的用途（除了真理理論之外）有一些直覺，我建議閱讀 Michael Schulman 的《構造數學的仿射邏輯》（Affine Logic for Constructive Mathematics）。

盧卡西維茨邏輯也是一種模糊邏輯（fuzzy logic）。事實上，「模糊邏輯」就意味著我們將真值視為 $[0,1]$ 範圍內的實數，並通過上述實值函數定義聯結詞的值。

模糊邏輯通常應用於陳述具有「真理程度」的情況，但其方式不易被解釋為概率。你可能會問：但某事「部分真實」是什麼意思？？ 一種自然的解釋是模糊陳述，例如「那個盒子很小」。在 $\text{Ł}_\infty$ 的背景下，請注意當且僅當 $v(a) \le v(b)$ 時，$a \to b$ 為 1。我將其想像為：「哦，如果盒子 A 是小的，那麼盒子 B 肯定也是小的！」。換句話說，真理的標準是模糊的，但是（在盧卡西維茨邏輯適用良好的地方）這些標準總是可比較的。我們可能無法判斷一個盒子是否客觀上很小（給定所有事實），但存在一個事實，即一個盒子是否比另一個盒子更小。

對於上述所有運算符，我們希望添加一個遵循 T-模式的 $T$。我們非常簡單地定義它：

$v(T(「s」)) = v(s)$

$\text{Ł}_\infty$ 是否解決了所有悖論？也就是說：它實際上是否與遵循 T-模式的自指真理謂詞一致？

我們確實得到了以下積極結果。只要我們有有限數量的句子，我們就可以應用布勞威爾不動點定理（Brouwer's fixed point theorem）來為這些句子找到一致的真值分配。我將用一些例子來說明這個想法。

這是說謊者悖論：

*以及一個加強版說謊者 $\gamma$，它可以通過在否定之前「自加」（強析取）來定義：

無論你如何繪製藍線，只要它是連續的，你就無法避免在某個點與紅色虛線相交。因此，我們總能找到一致的解決方案。類似的觀察也適用於有限的句子集。

然而，事實證明，當涉及無限多個句子時，我們確實會遇到一些麻煩。

雷斯托定理

我們引入盧卡西維茨邏輯是為了能給說謊者句子分配 $1/2$ 的真值，並避免悖論。事實證明，盧卡西維茨邏輯加上皮亞諾公理可以包含皮亞諾算術而不產生矛盾。也許我們可以為盧卡西維茨邏輯定義一個真理謂詞？

不幸的是，不行。事實證明，正如格雷格·雷斯托（Greg Restall）在 1994 年所展示的那樣，將塔斯基 T-模式的一個版本添加到盧卡西維茨-皮亞諾（Łukasiewicz-Peano）系統中也會導致悖論。

雷斯托構造了一個無限的句子序列 $a_n$，從定義如下的 $a_0$ 開始：

$a_0 := \neg \forall (n > 0). T(a_n)$

用語言表達：$a_0$ 說對於 $n > 0$，存在某個 $a_n$ 是假的。

對於其餘部分，我們定義 $a_n := a_{n-1} \otimes a_0$。也就是說，句子 $a_n$ 是 $a_0$ 與自身的強合取，總共 $n$ 次。

$a_0$ 的真值是多少？我們將通過矛盾法證明，沒有任何值與此構造一致。

證明： 我們首先將真值 $v$ 的遞歸定義應用於 $a_0$ 的直接公式，得到 $v(a_0) = v[\neg \forall (n > 0). T(a_n)] = 1 - \inf_{n > 0} v(a_n)$。現在，我們分出兩條可能的路徑，並從每條路徑推導出矛盾。

假設 $v(a_0) = 1$。那麼根據強合取的定義，$v(a_n) = \max(0, v(a_{n-1}) + v(a_0) - 1) = \max(0, v(a_{n-1}) + 1 - 1) = v(a_{n-1})$。這意味著所有 $a_n$ 的值都是 $v(a_n) = 1$，這意味著它的下確界也是 1。結合前一段的語義，我們得到 $v(a_0) = 1 - \inf_{n > 0} v(a_n) = 1 - 1 = 0$，這表明 $a_0$ 必須為假，這與我們開始的 $v(a_0) = 1$ 不同！

現在假設另一條分支，$v(a_0)$ 不是完全真實的，即對於某個 $\delta > 0$，$v(a_0) = 1 - \delta$。那麼 $v(a_n) = \max(0, v(a_{n-1}) + (1 - \delta) - 1) = \max(0, v(a_{n-1}) - \delta)$。重複應用這一點，我們看到 $v(a_n) = \max(0, 1 - n \cdot \delta)$，因此所有句子的下確界為 0。接下來我們將其代入 $v(a_0) = 1 - \inf_{n > 0} v(a_n) = 1 - 0 = 1$。這也與 $v(a_0) = 1 - \delta$ 不同！

顯然，所有分支都導致真值 $v(a_0)$ 與其初始值不同。因此，即使在模糊邏輯的世界裡，也不可能有一個定義良好的真值 $v$：$\text{Ł}_\infty$-皮亞諾算術加上真理的理論是不一致的。^([2])

但 $\text{Ł}_\infty$-真理非常美好

哈特里·菲爾德在他的著作《從悖論中拯救真理》中，在對許多不同的自指真理理論進行了廣泛審查後，認為基於盧卡西維茨的理論是所考慮過的最成功的：

在某些方面，我們到目前為止考慮過的最成功的理論是針對語言的無量詞部分的盧卡西維茨連續值邏輯（但允許通過非量化手段進行自指）。就像克里普克（Kripkean）理論 KFS 在克萊尼（Kleene）邏輯中一樣，但與所有廣義上的古典理論不同，它允許完全的「互換性原則」（Intersubstitutivity Principle）：$True(⟨A⟩)$ 在任何地方都可以與 $A$ 互換（對於「對...為真」也有類似的原則）。但與 KFS 不同，它有一個合理的條件句；特別是，這允許它包含塔斯基模式的所有實例

(T) $True(⟨A⟩) \leftrightarrow A$

（以及「對...為真」的類似模式）。該邏輯帶有一種令人愉悅的模型論語義，其中包括「$\to$」在內的所有聯結詞都被視為「值函數式」的——也就是說，句子的賦值僅基於其直接組成部分的值。$True(⟨A⟩)$ 總是獲得與 $A$ 相同的值，這解釋了為什麼這兩個句子是可以互換的。此外，值是有序的，當且僅當前件的值小於或等於後件的值時，條件句的值為 1；這與 $|True(⟨A⟩)| = |A|$ 的事實共同解釋了為什麼模式 (T) 的所有實例都成立。我一直在談論「真」，但這一點也延伸到「對...為真」及相關概念。簡而言之，基於連續值語義的命題邏輯中的天真真理理論、真理-於理論等將是一個非常好的理論，只要它能推廣到完整的量化語言，而不產生不一致性、或 $\omega$-不一致性、或非保守性（在第 3.3 節所使用的保守性意義上），或任何類似令人不快的事情。

哈特里·菲爾德隨後構建了他自己的理論，靈感來自盧卡西維茨邏輯的優點，但遺憾的是複雜得多。我們在本文中的論點是菲爾德放棄得太早了。當涉及到盧卡西維茨邏輯時，應對悖論的首選策略應該是添加更多的真值！

無窮小真理

具體來說，我們考慮添加一個無窮小值 $\epsilon$，這樣雷斯托的悖論句子 $a_0$ 就可以獲得值 $1 - \epsilon$。這看起來很有希望：也許 $\epsilon$ 可以足夠小，使得序列 $v(a_n)$ 永遠不會比 1 小一個正實數，儘管 $v(a_{n+1})$ 總是比 $v(a_n)$ 小。

最直接的路徑會遇到一些困難。一旦我們添加了無窮小，下確界和上確界就沒有定義了。例如，考慮序列 $1, 1/2, 1/4, 1/8 \dots$ 這個序列的下確界是什麼？在實數範圍內，下確界本應是 0，因為它是下界該序列的最大數。但無窮小 $\epsilon$ 大於 0 且小於序列中的所有數字，所以它更有資格。然而，這也不行：$2\epsilon$ 甚至更大，且仍然小於所有列出的數字。我們可以永遠繼續往上走，而不會超過序列中的任何數字，所以沒有下確界。

為了解決這個問題，我們將利用非標準分析中的無窮小概念。

非標準分析

牛頓和萊布尼茨最初是用無窮小來制定微積分的。現代微積分教科書則通過建立極限概念來重新表述一切。非標準分析利用模型論復活了無窮小。

實數的標準模型只能用二階邏輯來確定。然而（由於哥德爾的不完備性結果！），二階邏輯沒有完整且一致的推理系統。我們用來推理實數的任何公理系統都等同於一階公理系統（它具有完整的推理系統，但不能唯一地確定實數的標準模型）。

非標準分析利用這一事實將無窮小視為非標準實數，它們滿足關於實數的所有一階事實，同時大於零且小於所有正（標準）實數。這產生了超實數（hyperreal numbers）。

非標準分析還利用了被稱為*超有限數（hyperfinite numbers）*的非標準自然數。例如，我們不以通常的方式將積分定義為越來越細的總和的極限：

$\int_a^b x , dx = \lim_{n \to \infty} \sum_{i=1}^n a + i \frac{b-a}{n}$

相反，積分被直接定義為一個總和：

$\int_a^b x , dx = \sum_{i=1}^N a + i \frac{b-a}{N}$

這裡，$N$ 是一個超有限數：一個比所有標準自然數都大，但遵循自然數所有一階性質的非標準數。

這為我們的量詞處理方法提供了靈感。

超有限量化

正如我們之前論證的，如果要使用超實數，我們就不能保留將量化定義為 inf 和 sup 的做法，因為這些操作對超實數而言並非定義良好的。

因此，我們需要將 $\forall$ 和 $\exists$ 重新定義為在超限數量 $\omega$ 的句子上的最小值和最大值。與之前相比，這並不是很大的限制：$\omega$ 大於所有自然數，所以我們可以有無限數量的句子 $N$，我們只是不能有（絕對意義上的）無限多個。

對於超限數量 $\omega$ 的句子 $a_n$，之前的證明嘗試不再以矛盾告終。$a_0$ 的真值過去是 $v(a_0) = 1 - \inf_{n > 0} v(a_n)$，但在新的 $\forall$ 定義下，它是 $v(a_0) = 1 - \min_{0 < n \le \omega} v(a_n)$。

現在考慮證明的第二個分支，我們猜測對於某個 $\epsilon > 0$，$v(a_0) = 1 - \epsilon$，讓我們取一個無窮小 $\epsilon$。回想一下 $v(a_n) = 1 - n \cdot \epsilon$，因此 $a_n$ 的最小真值是在 $v(a_\omega) = 1 - \omega \cdot \epsilon$ 時取得的。將其代入 $a_0$ 的值，我們得到 $v(a_0) = 1 - \epsilon = 1 - (1 - \omega \cdot \epsilon)$。解出 $\epsilon$ 得到無窮小 $\epsilon = \frac{1}{\omega+1}$。因此，$a_0$ 的真值與 1 無窮接近，但又不同於 1！

討論：真理是否真的在理論「內部」？

我們已經證明，先前證明真理謂詞與皮亞諾算術不一致的方法，在非標準值的盧卡西維茨邏輯中行不通。表面上看，我們似乎提供了一個可以包含真理謂詞而不產生矛盾的理論範例！

這很可能確實如此。但也可能的情況是，我們只是提供了一個有序的無限 $\text{Ł-PA}$ 理論集的配方，其中每一個理論都只能表達比自己小的理論的真理謂詞，而不能表達自身的。

這不是一個證明或嚴密的論證，我們只是在指出問題所在。問題在於，在這個新理論中，量詞僅針對超限數量 $\omega$ 的元素。這會將理論中的實體數量（即數字的數量）限制在最多 $\omega$ 個。或者，可能可以證明最多有 $\omega-1$ 個數字，在這種情況下，理論會收縮。

考慮皮亞諾算術中對於定義加法至關重要的兩個公理，摘自雷斯托的論文：

$\forall x. (x + 0 = x)$ （數字零是加法的單位元）
$\forall x. \forall y. (x + Sy = S(x + y))$ （根據數字的後繼定義加法）

因為我們剛剛將 $\forall$ 陳述限制在超限數量的元素上（例如最多 $\omega$ 個），這意味著加法最多只能在總共 $\omega$ 個數字上定義。因此，由此產生的理論與皮亞諾算術不同，它的數字更少。在皮亞諾算術中，可以有無限多條「非標準數」的數線，它們都大於從 0 開始的標準數；但現在最多只能有 $\omega$ 個，因為定義數字的「對於所有」陳述只能針對最多 $\omega$ 個元素。

即使這是真的，該理論仍然可以表達其「對於所有」陳述中可以包含的元素數量。然而，有可能關於數字如何推導出的某些特性，使得數字最多只有 $\omega-1$（或更少）個。在這種情況下，用來表達量詞內部最大實體數量的數字甚至不存在於理論本身之中，這真是諷刺。

^(^)為什麼要關心真理的形式理論？
這篇文章主要是為了好玩，但我（Abram）確實看到了 AI 安全方面的潛在應用。AI 安全的一個子問題是可解釋性（interpretability）：弄清楚 AI 在想什麼。為了徹底解決這個問題，可能有必要採用一種意義/語義/指稱理論：我們如何一般性地推理某事是「關於」什麼的？
令人擔憂的是，試圖制定一套足夠強大以指導可解釋性工作的語義理論，可能會直接撞上塔斯基的不可定義性定理，該定理表明（在某些假設下）任何語義理論 $S$ 都不可能適用於 $S$ 本身。從直覺上看，這暗示了人類只有在 AI（在語義意義上）能力低於人類時，才能解釋 AI 在想什麼。
塔斯基的不可定義性定理引發了大量關於試圖繞過該定理的文獻，這正是我們在這裡所參與的。這類成功的理論可能與適用於能力與人類相當的 AI 系統的可解釋性理論相關。（我們並不聲稱目前的提議一定是此類應用的正確選擇，儘管我們確實認為它有一些不錯的特點。）
^(^)雷斯托的論文證明了 $\omega$-不一致性，這是一個較弱的缺陷。然而，$\omega$-不一致性與我們給出的基於下確界和上確界的量詞語義相矛盾。因此，我們可以準確地說，我們所做的假設是不一致的。
^(^)這些理論通常是在算術領域內發展的，這意味著為了討論句子，我們需要選擇一種將句子編碼為數字的方法。這在計算機科學中現在是標準做法（在那裡一切都被編碼為二進制數），但哥德爾在這種背景下引入了這個想法，所以我們稱這種做法為哥德爾編碼（Gödel encoding）。為了方便起見，本篇隨筆使用常規引號來表示這一點。因此，這裡的 $「s」$ 代表句子 $s$ 的哥德爾代碼。
^(^)儘管存在可以證明自身一致性的稍弱系統：自我驗證理論（self-verifying theories）。這些系統可能仍然擁有許多我們熟知並喜愛的定理。

— Lesswrong

其他收藏 · 0