分布的集合關係類比
我提出了一種基於最大熵機制的原則性運算方式,為機率分佈建立一套類比於經典集合關係的「模糊子集」概念。
這是一個大衛(David)和我過去幾天一直在輕微探討的概念性問題。
「A 是 B 的子集」我們可能會這樣視覺化:
- 如果我們想要一個相同圖表的模糊/機率版本,我們可能會畫成這樣:
我們可以輕易地為那種「模糊子集」的視覺效果想出一些權宜的(ad-hoc)操作化定義。但我們想要的是一個有原則的(principled)操作化定義。
這裡有一個我挺喜歡的方案,基於 最大熵(maxent)機制。
背景概念 1:E[−logP[X]]≤HP(X) 編碼了與 P 本身相同的關於 X 的資訊
首先,一個背景概念。考慮這個最大熵問題:
maxP′−∑XP′[X]logP′[X] 滿足 −∑XP′[X]logP[X]≤−∑XP[X]logP[X]
或者,更簡潔地表示為:
maxent[X] 滿足 E[−logP[X]]≤HP(X)
用白話來說:在滿足「(使用為分佈 P 優化的編碼來對來自 P′ 的樣本進行編碼所需的平均位元數)至多等於(使用為 P 優化的編碼來對來自 P 的樣本進行編碼所需的平均位元數)」這一條件下,熵最大的分佈 P′ 是什麼?
這個問題的解就是 P′=P。
證明
首先,除非 P 是均勻分佈(uniform)的平凡情況,否則約束條件必須是緊緻的(bind)。如果約束不緊緻,則解將會是均勻分佈 U[X]。在這種情況下,約束條件會變成:
−∑XU[X]logP[X]≤−∑XP[X]logP[X]
≤−∑XU[X]logU[X] (因為均勻分佈具有最大熵)
……但接著加上 ∑XU[X]logU[X] 會得出 DKL(U||P)≤0,這只有在兩個分佈相等時才能成立。因此,除非 P 是均勻分佈,否則會產生矛盾,所以約束條件必須是緊緻的。
既然約束是緊緻的,最大熵問題通常的一階條件告訴我們,解的形式為 P′[X]=1ZeαlogP[X],其中 Z 是歸一化因子,純量 α 的選擇是為了滿足約束。我們可以藉由選擇 α=1 來平凡地滿足約束,在這種情況下 Z=1 使分佈歸一化,我們得到 P′[X]=P[X]。最大熵分佈的唯一性隨即完成了證明。
所以從概念上來說,利用 最大熵分佈的禪意,約束條件 E[−logP[X]]≤HP(X) 編碼了與分佈 P 本身相同的關於 X 的資訊。
背景概念 2:……那麼讓我們用最大熵來融合分佈?
從概念上講,如果約束 E[−logP[X]]≤HP(X) 將來自 P 的所有資訊編碼進一個最大熵問題,而約束 E[−logQ[X]]≤HQ(X) 將來自 Q 的所有資訊編碼進一個最大熵問題,那麼求解同時具有這兩個約束的最大熵問題,在某種意義上就整合了「來自 P 和 Q 的所有資訊」。
定性地看,在一個例子中它看起來是這樣的:
- P 說 X 可能在紅色橢圓內。Q 說 X 可能在藍色橢圓內。所以兩者結合起來,它們在概念上說 X 可能在中間某處,大約是兩者相交的地方。
在數學上,最大熵的一階條件說明 P′[X]=1ZP[X]αQ[X]β,對於某些 α,β(我們假設兩者皆為正,因為我現在不想深入探討細節)。對於任何特定的 X 值,P[X]α 和 Q[X]β 不會大於 1,但它們可以任意接近 0(甚至可以正好是 0)。既然它們是相乘的,當其中任何一個非常接近 0 時,我們直覺上預期乘積會非常接近 0。因此,大部分的機率質量最終會落在兩個分佈都不非常接近 0 的地方——即橢圓大致相交的點,正如我們直覺上所希望的那樣。
值得注意的是,在 P 和 Q 在其橢圓上是均勻分佈的情況下(所以它們基本上只代表集合),產生的分佈正是兩個集合交集上的均勻分佈。所以從概念上講,P 說的是類似「X 在集合 SP 中」,Q 說的是類似「X 在集合 SQ 中」,然後將這兩者都投入最大熵問題中,說的就是類似「X 在 SP 中且 X 在 SQ 中,即 X 在交集中」。
這希望能為如何以及為何可以使用最大熵來結合兩個不同分佈 P,Q 中「假設」的資訊提供一點直覺。
類似子集關係的東西?
如果我們將 E[−logP[X]]≤HP(X) 和 E[−logQ[X]]≤HQ(X) 投入最大熵問題,但結果發現 Q 的約束是非緊緻的(nonbinding)呢?從概念上講,這意味著 P 已經告訴了我們 Q 所告訴我們的關於 X 的一切(甚至更多)。或者,用籠統的集合術語來說,這意味著 SP 是 SQ 的子集,因此對 X 施加了嚴格更強的限制。
原則上,我們可以在不實際執行最大熵問題的情況下,檢查 Q 的約束是否為緊緻。我們知道如果 Q 的約束不緊緻,最大熵的解就是 P,所以我們只需要在 P 處評估 Q 的約束,看看它是否被滿足。因此,關鍵條件是:
EP[−logQ[X]]≤HQ(X)
當且僅當該條件成立時,Q 的約束是非緊緻的,所以我們可以將 EP[−logQ[X]]≤HQ(X) 視為在概念上表達類似於:「隱含在 Q 中的關於 X 的資訊,被隱含在 P 中的關於 X 的資訊所蘊含」,或者在均勻分佈的情況下,「SP 是 SQ 的子集」。
現在進行一項有趣的檢查。如果我們要將這個公式視為類比於子集關係,那麼我們希望它具有傳遞性:A⊂B 且 B⊂C 蘊含 A⊂C。那麼,我們是否擁有:
(EP[−logQ[X]]≤HQ(X) 且 EQ[−logR[X]]≤HR(X)) 蘊含 EP[−logR[X]]≤HR(X)
?
根據大衛的快速計算檢查,答案是「否」,這讓這個方案看起來不那麼樂觀,儘管我尚未完全被說服。
相關文章
其他收藏 · 0