分布的集合關係類比

Lesswrong·5 個月前

我提出了一種基於最大熵機制的原則性運算方式，為機率分佈建立一套類比於經典集合關係的「模糊子集」概念。

這是一個大衛（David）和我過去幾天一直在輕微探討的概念性問題。

「A 是 B 的子集」我們可能會這樣視覺化：

如果我們想要一個相同圖表的模糊/機率版本，我們可能會畫成這樣：

我們可以輕易地為那種「模糊子集」的視覺效果想出一些權宜的（ad-hoc）操作化定義。但我們想要的是一個有原則的（principled）操作化定義。

這裡有一個我挺喜歡的方案，基於最大熵（maxent）機制。

背景概念 1：E[−logP[X]]≤HP(X) 編碼了與 P 本身相同的關於 X 的資訊

首先，一個背景概念。考慮這個最大熵問題：

maxP′−∑XP′[X]logP′[X] 滿足 −∑XP′[X]logP[X]≤−∑XP[X]logP[X]

或者，更簡潔地表示為：

maxent[X] 滿足 E[−logP[X]]≤HP(X)

用白話來說：在滿足「（使用為分佈 P 優化的編碼來對來自 P′ 的樣本進行編碼所需的平均位元數）至多等於（使用為 P 優化的編碼來對來自 P 的樣本進行編碼所需的平均位元數）」這一條件下，熵最大的分佈 P′ 是什麼？

這個問題的解就是 P′=P。

證明

首先，除非 P 是均勻分佈（uniform）的平凡情況，否則約束條件必須是緊緻的（bind）。如果約束不緊緻，則解將會是均勻分佈 U[X]。在這種情況下，約束條件會變成：

−∑XU[X]logP[X]≤−∑XP[X]logP[X]

≤−∑XU[X]logU[X] （因為均勻分佈具有最大熵）

……但接著加上 ∑XU[X]logU[X] 會得出 DKL(U||P)≤0，這只有在兩個分佈相等時才能成立。因此，除非 P 是均勻分佈，否則會產生矛盾，所以約束條件必須是緊緻的。

既然約束是緊緻的，最大熵問題通常的一階條件告訴我們，解的形式為 P′[X]=1ZeαlogP[X]，其中 Z 是歸一化因子，純量 α 的選擇是為了滿足約束。我們可以藉由選擇 α=1 來平凡地滿足約束，在這種情況下 Z=1 使分佈歸一化，我們得到 P′[X]=P[X]。最大熵分佈的唯一性隨即完成了證明。

所以從概念上來說，利用最大熵分佈的禪意，約束條件 E[−logP[X]]≤HP(X) 編碼了與分佈 P 本身相同的關於 X 的資訊。

背景概念 2：……那麼讓我們用最大熵來融合分佈？

從概念上講，如果約束 E[−logP[X]]≤HP(X) 將來自 P 的所有資訊編碼進一個最大熵問題，而約束 E[−logQ[X]]≤HQ(X) 將來自 Q 的所有資訊編碼進一個最大熵問題，那麼求解同時具有這兩個約束的最大熵問題，在某種意義上就整合了「來自 P 和 Q 的所有資訊」。

定性地看，在一個例子中它看起來是這樣的：

P 說 X 可能在紅色橢圓內。Q 說 X 可能在藍色橢圓內。所以兩者結合起來，它們在概念上說 X 可能在中間某處，大約是兩者相交的地方。

在數學上，最大熵的一階條件說明 P′[X]=1ZP[X]αQ[X]β，對於某些 α,β（我們假設兩者皆為正，因為我現在不想深入探討細節）。對於任何特定的 X 值，P[X]α 和 Q[X]β 不會大於 1，但它們可以任意接近 0（甚至可以正好是 0）。既然它們是相乘的，當其中任何一個非常接近 0 時，我們直覺上預期乘積會非常接近 0。因此，大部分的機率質量最終會落在兩個分佈都不非常接近 0 的地方——即橢圓大致相交的點，正如我們直覺上所希望的那樣。

值得注意的是，在 P 和 Q 在其橢圓上是均勻分佈的情況下（所以它們基本上只代表集合），產生的分佈正是兩個集合交集上的均勻分佈。所以從概念上講，P 說的是類似「X 在集合 SP 中」，Q 說的是類似「X 在集合 SQ 中」，然後將這兩者都投入最大熵問題中，說的就是類似「X 在 SP 中且 X 在 SQ 中，即 X 在交集中」。

這希望能為如何以及為何可以使用最大熵來結合兩個不同分佈 P,Q 中「假設」的資訊提供一點直覺。

類似子集關係的東西？

如果我們將 E[−logP[X]]≤HP(X) 和 E[−logQ[X]]≤HQ(X) 投入最大熵問題，但結果發現 Q 的約束是非緊緻的（nonbinding）呢？從概念上講，這意味著 P 已經告訴了我們 Q 所告訴我們的關於 X 的一切（甚至更多）。或者，用籠統的集合術語來說，這意味著 SP 是 SQ 的子集，因此對 X 施加了嚴格更強的限制。

原則上，我們可以在不實際執行最大熵問題的情況下，檢查 Q 的約束是否為緊緻。我們知道如果 Q 的約束不緊緻，最大熵的解就是 P，所以我們只需要在 P 處評估 Q 的約束，看看它是否被滿足。因此，關鍵條件是：

EP[−logQ[X]]≤HQ(X)

當且僅當該條件成立時，Q 的約束是非緊緻的，所以我們可以將 EP[−logQ[X]]≤HQ(X) 視為在概念上表達類似於：「隱含在 Q 中的關於 X 的資訊，被隱含在 P 中的關於 X 的資訊所蘊含」，或者在均勻分佈的情況下，「SP 是 SQ 的子集」。

現在進行一項有趣的檢查。如果我們要將這個公式視為類比於子集關係，那麼我們希望它具有傳遞性：A⊂B 且 B⊂C 蘊含 A⊂C。那麼，我們是否擁有：

(EP[−logQ[X]]≤HQ(X) 且 EQ[−logR[X]]≤HR(X)) 蘊含 EP[−logR[X]]≤HR(X)

？

根據大衛的快速計算檢查，答案是「否」，這讓這個方案看起來不那麼樂觀，儘管我尚未完全被說服。

— Lesswrong

其他收藏 · 0

你的個人知識庫

分布的集合關係類比

背景概念 1：E[−logP[X]]≤HP(X) 編碼了與 P 本身相同的關於 X 的資訊

背景概念 2：……那麼讓我們用最大熵來融合分佈？

類似子集關係的東西？