不敏感函數是自然的本體論生成器嗎?

Lesswrong·

這篇文章探討了物理系統中的混沌如何透過使大多數預測對初始條件高度敏感,從而產生自然本體,使得僅有像能量這樣不敏感且守恆的量能作為可預測的抽象概念。這表明自然本體的出現,是因為某些函數對於隨時間追蹤混沌動力學所需增加的位元數具有不敏感性。

關於「自然本體論」(natural ontology)最經典的例子來自統計力學中的氣體。在最簡單的版本中,我們將氣體模擬為一堆在盒子裡到處碰撞的小撞球。

其動力學過程是混沌的。由於系統是連續的,初始條件是具有任意多位精度的實數——例如,某顆球開始時的中心座標可能是 x = 0.8776134000327846875...,y = 0.0013617356590430716...,z = 132983270923481...。隨著球體碰撞,這些十進位表示中愈來愈後面的數位,會與系統的宏觀行為變得息息相關。(或者,如果我們使用二進位,則是二進位表示中愈來愈後面的位元會變得相關。)但在實踐中,測量精度是有限的,因此我們對於展開式中靠後的數位/位元的資訊幾乎為零。隨著時間推移,我們對系統宏觀行為的不確定性便會達到極大。

……除了對守恆量(例如能量)的預測之外。

相反地,我們關於系統宏觀行為的初始資訊,對於預測未來狀態仍然很有幫助,但它所能告訴我們的,大多是關於未來狀態變數(即位置和速度)二進位展開中非常靠後的位元。換另一種說法:最初我們對高位元有非常精確的資訊,但對靠後的低位元資訊幾乎為零。隨著系統演化,這些資訊會混合在一起。最終我們對高位元和低位元的「組合」擁有大量資訊,但對其中任何單一部分的資訊都極少。(這是一個關於「擁有兩個變數組合的大量資訊,卻對單一變數知之甚少」的經典例子:我秘密地擲兩枚硬幣,然後告訴你兩次的結果相同。所有的資訊都關於這兩個變數之間的關係,而非個別的數值。)因此,儘管我們擁有大量關於微觀系統狀態的資訊,我們對宏觀行為(即高位元)的預測卻幾乎是極大不確定的。

……同樣地,能量等守恆量除外。我們可能對能量有一些初始的不確定性,或者存在來自外部影響的雜訊等,但系統自身的動力學不會像放大其他不確定性那樣去「放大」這種不確定性。

因此,雖然隨著時間推移,我們的大多數預測都會變得最大熵化(即最大程度的不確定),但我們仍然可以對系統在遙遠未來的能量做出相當精確的預測。

這就是自然本體論的由來:即使是超級智能,對初始條件的測量精度也是有限的。因此,只要撞球模型能良好模擬某種特定氣體,即使是超級智能對這種氣體做出的預測,也會與人類科學家相同。它會測量並追蹤能量等守恆量,然後在這些守恆量的約束下使用最大熵分佈——即 波茲曼分佈。這是在現實中能做到的極限。

強調不敏感性(Insensitivity)

在上述故事中,我試圖強調「敏感性」的作用。具體而言:隨著時間推移,任何人們想要做出的宏觀預測(守恆量除外),都會對愈來愈低位的位元/數位變得敏感。從某種意義上說,這並非真正關乎事物的「大小」,也不是真的因為需要愈來愈精確的測量。相反,混沌之所以誘導出自然本體論,是因為隨著我們預測得愈遠,感興趣的非守恆量會依賴於愈來愈多數量的位元。為了做出優於波茲曼分佈的預測,我們需要知道的位元數量會愈來愈多。

讓我們從另一個角度來闡述這個想法。

假設我有個二進位函數 $f$,它有一百萬個輸入位元和一個輸出位元。這個函數是從所有此類函數中隨機均勻選出的——也就是說,對於 $2^{1,000,000}$ 個可能的輸入 $x$ 中的每一個,我們都透過擲硬幣來決定該特定輸入的輸出 $f(x)$。

現在,假設我知道 $f$(即我知道每個輸入對應的輸出),並且我知道除 50 個位元以外的所有輸入位元——也就是說,我知道 999,950 個輸入位元。那麼我對輸出有多少資訊?

答案是:幾乎沒有。對於幾乎所有這類函數,知道 999,950 個輸入位元僅能提供約 $1/2^{50}$ 位元的輸出資訊。更一般地說,如果函數有 $n$ 個輸入位元而我們知道除了 $k$ 個以外的所有位元,那麼我們擁有的輸出資訊量為 $o(1/2^k)$ 位元。(這是「小 o」符號;它類似於大 O 符號,但用於描述極小而非極大的事物。)我們的資訊量會隨著未知位元的數量呈指數級下降。

證明簡述

當有 $k$ 個輸入位元未知時,存在 $2^k$ 個可能的輸入。每個輸入對應的輸出都是一次獨立的擲硬幣,因此我們有 $2^k$ 次獨立的擲硬幣結果。如果其中有 $m$ 次結果為 1,那麼我們賦予輸出為 1 的機率為 $m/2^k$。

只要 $2^k$ 足夠大,大數法則就會起作用,幾乎可以肯定其中接近一半的結果會是 1——即 $m \approx 2^k/2$。這個近似值的誤差會(非常迅速地)收斂到常態分佈,而輸出為 1 的機率則收斂到均值為 $1/2$、標準差為 $1/(2 \cdot 2^{k/2})$ 的常態分佈。因此,輸出為 1 的機率大約是 $1/2 \pm 1/2^{k/2}$。

接著我們可以將其代入香農熵(Shannon’s entropy)公式。我們對輸出位元為 1 的先驗機率是 $1/2$,所以我們感興趣的是那 $\pm 1/2^{k/2}$ 的調整減少了多少熵。計算結果為 $o(1/2^k)$ 位元。

這裡的效果與混沌相似:為了對函數輸出的預測優於 50/50,我們基本上需要知道所有的輸入位元。即使是相對較少數量的未知位元——在 1,000,000 個中僅有 50 個——也足以抹除基本上所有的資訊,讓我們回到接近 50/50 的預測。

至關重要的是,這個論點適用於隨機二進位函數——這意味著幾乎所有函數都具有這種性質,至少在具有大量輸入的函數中是如此。一個函數必須是非常不尋常且特殊的,才不會因為僅僅幾個未知輸入就失去基本上所有關於其輸出的資訊。

在撞球的案例中,函數的「輸入」是初始條件,而「輸出」則是對稍後時間點系統宏觀行為的某種預測。混沌特性粗略地告訴我們,隨著時間推移,氣體預測函數具有與幾乎所有函數相同的關鍵特性:即使是相對少數的未知輸入,也足以完全抹除關於輸出的資訊。當然,守恆量除外。

不敏感函數/預測的特徵化?

將這些結合起來,我們得到了一幅由幾個部分組成的圖像:

  • 「自然本體論」涉及不敏感的函數/預測,因為在實踐中,如果一個函數有大量輸入,其中一些很可能是未知的,這會抹除幾乎所有的資訊,除非該函數對大多數輸入並不敏感。
  • 幾乎所有的函數都是敏感的。

因此,如果自然本體論的核心是不敏感函數,而幾乎所有函數都是敏感的……那麼對不敏感函數進行特徵化(characterize)似乎是非常有用的?

這在某些狹窄的領域已經得到了一定程度的研究——例如,如果我沒記錯,在計算理論中有一種特定的意義,認為「最不敏感」的二進位函數是投票函數(voting functions),即每個輸入位元被賦予一個權重(正或負),然後我們將它們全部相加,看結果是正還是負。

但為了自然本體論的目的,我們需要更全面的特徵化。需要某種方法來處理任何舊有的函數——例如從早期撞球氣體狀態預測後期狀態的函數——並定量地討論其「守恆量/不敏感量」(或任何正確的泛化稱呼)、「敏感量」,以及當某些量處於完全敏感與完全不敏感之間的譜系時的有用近似。

Lesswrong

相關文章

  1. 三種本體論基礎

    5 個月前

  2. Palantir 的「本體論」騙局

    老冯云数 · 2 個月前

  3. 為何不直接針對可解釋性進行訓練?

    5 個月前

  4. 對代理基礎有益的系統類型

    5 個月前

  5. 潛在內省(以及其他開源內省論文)

    29 天前