從資訊理論角度探討自然潛在變數的穩定性

Lesswrong·

這篇文章利用資訊理論的語言為自然隱變量的穩定性提供了一種替代證明,與原始的圖形模型方法相比,提供了一個代數上更簡潔的視角。我將 Wentworth 和 Lorell 作品中的定理 1 轉換為資訊理論術語,以展示他們的假設與結論在此框架下如何保持等價。

這篇文章是對 John Wentworth 和 David Lorell 所著的《自然隱變量:跨本體穩定的隱變量》(Natural Latents: Latent Variables Stable Across Ontologies)的評論。本文假設讀者對該研究已有一定瞭解,因此不打算對其進行解釋。相反,我將展示一個作為理解練習而開發的替代證明。雖然原始定理和證明是使用圖形模型(graphical models)的語言編寫的,但我的證明則使用了信息論(information theory)的語言。我的證明優點在於代數上的簡潔,而他們的優點在於開發了直接處理因果結構的機制。通常,看到同一個事實的多種解釋有助於我們理解它,因此我希望這篇文章對某些人有所幫助。

具體來說,我們關注的是他們的定理 1(中介者決定冗餘,Mediator Determines Redund):包括針對隨機隱變量的舊版 Iliad 1 版本,以及針對確定性隱變量的新版 arXiv 版本。我將把每個定理翻譯成信息論的語言:Wentworth 和 Lorell 的假設將隱含我的假設,而他們的結論將等同於我的結論。這些等價性遵循 d-分離(d-separation)標準,以及獨立性等同於互信息為零的事實。

在重新表述的新定理中,隱變量 Λ 是數據子集 A 和 B 之間的「中介者」(mediator),這意味著它包含了 A 和 B 之間基本上所有的共同信息;而隱變量 Λ′ 是 A 和 B 之間的「冗餘者」(redund),這意味著它基本上「僅」包含 A 和 B 之間的共同信息。^([1])

新定理 1(確定性隱變量)

令 A, B 為 {1,...,n} 的不相交子集。

假設隨機變量 X1,…Xn, Λ, Λ′ 滿足以下條件:

Λ 中介性(Mediation):I(XA:XB∣Λ) ≤ ϵmed,

Λ′ 冗餘性(Redundancy):H(Λ′∣XA) ≤ ϵred 且 H(Λ′∣XB) ≤ ϵred。

則 H(Λ′∣Λ) ≤ ϵmed + 2ϵred。

證明

H(Λ′∣Λ)

= H(Λ′∣XB, Λ) + I(Λ′:XB∣Λ) 根據條件互信息的定義,

≤ H(Λ′∣XB) + I(XA:XB∣Λ) + H(Λ′∣XA) 根據信息論不等式,

≤ ϵmed + 2ϵred 根據冗餘性和中介性。

舊定理 1(隨機隱變量)

假設隨機變量 X1,…Xn, Λ, Λ′ 滿足以下條件:

獨立隱變量(Independent Latents):I(Λ:Λ′∣X) ≤ ϵind,

Λ 中介性(Mediation):對於所有 j,I(Xj:X−j∣Λ) ≤ ϵmed,

Λ′ 冗餘性(Redundancy):對於所有 j,I(Λ′:Xj∣ X−j) ≤ ϵred。

則 I(Λ′:X∣Λ) ≤ n(ϵind + ϵmed + ϵred)。

證明

首先,我們有

I(Λ′:Xj∣X−j) − I(Λ′:Xj∣Λ, X−j)

= I(Λ′:Xj:Λ∣X−j) 根據三元交互信息(interaction information)的定義,

= I(Λ′:Λ:Xj∣X−j) 根據三元交互信息的對稱性,

= I(Λ′:Λ∣X−j) − I(Λ′:Λ∣Xj, X−j)

≥ −I(Λ′:Λ∣Xj, X−j)

≥ −ϵind 根據獨立隱變量假設。

因此,

I(Λ′:Xj∣Λ)

≤ I((Λ′, X−j):Xj∣Λ)

= I(X−j:Xj∣Λ) + I(Λ′:Xj∣Λ, X−j) 根據互信息鏈式法則,

≤ I(X−j:Xj∣Λ) + I(Λ′:Xj∣X−j) + ϵind 根據上述推導,

≤ ϵind + ϵmed + ϵred 根據中介性和冗餘性。

現在通過對所有 j=1,...,n 求和即可得出結果。

  • ^(^)由於概率模型通常僅根據隱結構來定義,你可能會在哲學上懷疑對包括隱變量在內的所有變量施加聯合分佈的做法。如果是這樣,請隨意將隨機變量替換為其具體實例:推導過程幾乎完全相同,只需分別用柯氏複雜度(Kolmogorov complexity)和算法互信息(algorithmic mutual information)替換香農熵(Shannon entropy)和互信息即可。

Lesswrong

相關文章

  1. 朝證明隨機→確定性自然潛在變數邁出的微小步伐

    4 個月前

  2. 凝聚理論概要及其與自然潛在變量的關係

    大約 2 個月前

  3. 比較 Payor 與 Löb

    6 個月前

  4. 重採樣在 Jensen-Shannon 散度下近似地保留了冗餘與中介性

    6 個月前

  5. 長程訊號條件下,伊辛模型仍具局部因子作用

    5 個月前

其他收藏 · 0