重採樣在 Jensen-Shannon 散度下近似地保留了冗餘與中介性

Lesswrong·

這篇文章修正了之前的錯誤,證明了使用 Jensen-Shannon 散度而非 KL 散度時,重新採樣能(近似地)保留冗餘與中介性。

大約兩個月前,John 和我發表了《重採樣守恆冗餘性(近似地)》。幸運的是,大約兩週前,Jeremy Gillen 和 Alfred Harwood 向我們展示了我們是錯誤的

這份證明利用 Jensen-Shannon 散度("JS")實現了先前嘗試使用 KL 散度("DKL")卻未能證明的結果。事實上,先前的嘗試僅試圖證明在重採樣潛在變量(latents)時冗餘性是守恆的(以 DKL 計),而這份證明則顯示了冗餘性 以及 中介條件(mediation conditions)皆是守恆的(以 JS 計)。

為什麼選擇 Jensen-Shannon?

在我們幾乎所有的先前工作中,我們都使用 DKL 作為分解誤差(Factorization error)。(該誤差旨在捕捉給定分佈在多大程度上未能根據某種圖形結構進行分解。)在本篇文章中,我使用了 Jensen-Shannon 散度。

DKL(U||V):=EUlnUV

JS(U||V):=12DKL(U||U+V2)+12DKL(V||U+V2)

KL 散度是信息論中一個非常基礎的量,應用極其廣泛。(JS 通常如上所示,根據 DKL 來定義。)我們對於 DKL 的含義有著非常強烈的直覺,它擁有許多優良的性質(在此不詳述),因此在量化兩個分佈之間的差異程度時,我們一直將其視為強大的默認選擇。

相比之下,JS 散度看起來有些隨機(ad-hoc)。但它也具有一些優良的數學性質(其平方根是一個度量(metric),這是 DKL 嚴重缺失的特性),並且在直覺上也有 一些 理由支持它:JS(U||V) 等同於變量 X(從其中一個分佈隨機採樣)與指標 Z(決定 X 從哪個分佈採樣)之間的互信息(mutual information)。因此,從這個意義上說,它捕捉了樣本區分兩個分佈的程度。

然而,歸根結底,我們希望為未來選擇誤差函數提供更紮實的依據。

這份 證明 是有效的,但它使用的是 JS 而非 DKL。這會是個問題嗎?我們是否可以或應該將所有內容都切換到 JS?我們還不確定。我們近期的一些研究重點將放在如何更好地確定「正確」的誤差函數,以便在處理(自然)潛在變量時比較分佈。

現在,進入證明部分:

定義

令 P 為 X 和 Λ 上的任何分佈。

如果手邊的分佈是所有變量均未綁定的完整聯合分佈,我將省略下標。即 PX,Λ 與 P 相同。當變量被綁定時,它們將在下標中以小寫形式寫出。當這仍然存在歧義時,將使用完整的括號表示法。

首先,定義輔助分佈 Q、S、R 和 M:

Q:=PXPΛ|X1, S:=PXPΛ|X2, R:=PXQΛ|X2=PX∑X1[PX1|X2PΛ|X1], M:=PΛPX1|ΛPX2|Λ

Q、S 和 M 各自完美地滿足(隨機)自然潛在變量(Natural Latent)條件之一,其中 Q 和 S 各自滿足冗餘條件之一(分別為 X2→X1→Λ 和 X1→X2→Λ),而 M 滿足中介條件(X1←Λ→X2)。

R 代表將 兩個 冗餘分解先後應用於 P 時的分佈。

令 Γ 為一個潛在變量,定義為 P[Γ=γ|X]:=P[Λ=γ|X1]=P[Γ=γ|X1],其中 PΓ:=PX,ΛPΓ|X

現在,類似地定義輔助分佈 QΓ、SΓ 和 MΓ,並展示與 P、Q、S、R 和 M 的一些有用關係:

QΓX,γ:=PXPΓγ|X1=PXQ[Λ=γ|X1]=Q[X,Λ=γ]SΓX,γ:=PXPΓγ|X2=PX∑X1(PX1|X2Pγ|X1)=R[X,Λ=γ], MΓX,γ:=PΓγPΓX1|γPΓX2|Γ=P[Λ=γ]P[X1|Λ=γ]R[X2|Λ=γ]

PΓX,γ=PXPγ|X=Q[X,Λ=γ] PΓγ=Q[Λ=γ]=P[Λ=γ]=PΓ[Λ=γ] PΓX1|γ=P[X1|Λ=γ]=Q[X1|Λ=γ] PΓX2|γ=R[X2,Λ=γ]PΓγ=R[X2|Λ=γ]

接著,定義誤差度量和感興趣的誤差:

Jensen-Shannon 散度,以及 Jensen-Shannon 距離(一個真正的度量):

JS(U||V):=12DKL(U||U+V2)+12DKL(V||U+V2)

δ(U,V):=√JS(U||V)=δ(V,U)

ϵ1:=JS(P||Q),ϵ2:=JS(P||S),ϵmed:=JS(P||M)

ϵΓ1:=JS(PΓ||QΓ),ϵΓ2:=JS(PΓ||SΓ)=JS(Q||R),ϵΓmed:=JS(PΓ||MΓ)=JS(Q||MΓ)

定理

最後是定理:

對於 (X, Λ) 上的任何分佈 P,根據其冗餘圖之一重採樣的潛在變量 Γ∼P[Λ|Xi],其在該分解上的冗餘誤差為零,而其他分解誤差則被 Λ 所誘導誤差的一個小因子所限制。更正式地說:

對於所有 P[X,Λ],由 P[Γ=γ|X]:=P[Λ|X1] 定義的潛在變量 Γ 具有有界的分解誤差 ϵΓ1=0 且 max(ϵΓ2,ϵΓmed)≤5(ϵ1+ϵ2+ϵmed)。

事實上,這是一個比下文證明的更簡單但更寬鬆的界限,下文實現了更精確的界限:ϵΓ1=0, ϵΓ2≤(2√ϵ1+√ϵ2)2, 以及 ϵΓmed≤(2√ϵ1+√ϵmed)2。

證明

(1) ϵΓ1=0

(1) 的證明

JS(PΓ||QΓ)=0,因為 PΓX,γ=Q[X,Λ=γ]=QΓX,γ 且 PΓΛ|X=PΛ|X

(2) ϵΓ2≤(2√ϵ1+√ϵ2)2

引理 1:JS(S||R)≤ϵ1

S[Λ|X2]=P[Λ|X2]=∑X1P[X1|X2]P[Λ|X]

R[Λ|X2]=Q[Λ|X2]=∑X1P[X1|X2]P[Λ|X1]

JS(S||R)=∑X2JS(SΛ|X2||RΛ|X2)≤∑XP[X2]P[X1|X2]JS(PΛ|X||P[Λ|X1])=JS(P||Q)=:ϵ1^([1])

引理 2:δ(Q,R)≤√ϵ1+√ϵ2

令 dx:=δ(PΛ|x1,PΛ|x2),ax:=δ(PΛ|x,PΛ|x1), 以及 bx:=δ(PΛ|x,PΛ|x2)

δ(Q,S)=√JS(Q,S)=√EPXJS(PΛ|X1||PΛ|X2)=√EPX(dX)2≤√EPX(aX+bX)2 根據度量 δ 的三角不等式≤√EPX(aX)2+√EPX(bX)2 透過閔可夫斯基不等式=√JS(P||Q)+√JS(P||S)=√ϵ1+√ϵ2

(2) 的證明

√ϵΓ2=√JS(PΓ||SΓ)=√JS(Q||R)=:δ(Q,R)

δ(Q,R)≤δ(Q,S)+δ(S,R) 根據度量 δ 的三角不等式≤δ(Q,R)+√ϵ1 根據引理 1≤2√ϵ1+√ϵ2 根據引理 2

(3) ϵΓmed≤(2√ϵ1+√ϵmed)2

(3) 的證明

JS(M||MΓ)=∑γP[Λ=γ]JS(P[X2|Λ=γ]||R[X2|Λ=γ])=EPΛJS(SX2|Λ||RX2|Λ)≤JS(S||R) 根據數據處理不等式(Data Processing Inequality)

√ϵΓmed=δ(PΓ,MΓ)=δ(Q,MΓ)≤δ(Q,P)+δ(P,M)+δ(M,MΓ) 根據度量 δ 的三角不等式=√ϵ1+√ϵmed+√JS(M,MΓ)≤√ϵ1+√ϵmed+√JS(M,MΓ)≤2√ϵ1+√ϵmed 根據引理 1

結果

如上所示(使用 Jensen-Shannon 散度作為誤差函數),根據潛在變量的任一冗餘圖重採樣(重採樣 X2 時只需交換 ϵ1 和 ϵ2 的界限),會產生一個新的潛在變量,它近似地滿足冗餘和中介圖,其程度與原始變量相當,並且完美地滿足其中一個冗餘圖。

界限為:
ϵΓ1=0ϵΓ2≤(2√ϵ1+√ϵ2)2ϵΓmed≤(2√ϵ1+√ϵmed)2

其中不帶上標的 epsilon 是對應於原始潛在變量 Λ 和 X 的各自自然性條件分解的誤差。

額外獎勵

對於 a,b>0,(2√a+√b)2≤5(a+b) 根據柯西-施瓦茨不等式,使用向量 [2,1] 和 [√a,√b]。因此得到更簡單但更寬鬆的界限:max{ϵΓ1,ϵΓ2,ϵΓmed}≤5(ϵ1+ϵ2+ϵmed)

[修訂:這是一個 Colab 會話,我在其中對具有 3 個二進制變量的系統進行了數值測試,包括隨機採樣和旨在突破界限的簡單梯度上升測試。所有數值檢查均已通過。]

  • ^(^) JS(U||V) 的聯合凸性(Joint Convexity)證明了此不等式,該性質繼承自 KL 散度的聯合凸性。

Lesswrong

相關文章

  1. 共生演化與匯聚性後果論

    6 個月前

  2. 標記化的黑暗藝術,或:我如何學會開始憂慮並擁抱大型語言模型的未解碼輸出

    6 個月前

  3. ARC 進度更新:與抽樣方法競爭

    5 個月前

  4. 初探凝結理論

    22 天前

  5. 疊加態中的旋轉

    5 個月前

其他收藏 · 0