為何不直接針對可解釋性進行訓練？

Lesswrong·5 個月前

這篇文章主張我們不能僅透過猜測架構來訓練具備可解釋性的模型，因為現實世界有其偏好的本體論，必須去發現而非強加。試圖透過決策樹等預設結構來強求可解釋性注定會失敗，因為這忽略了現實世界複雜且自然的分解方式。

Simplicio：嘿，我有一個關於對齊研究的想法想跟你討論。

我：……看來我們又要來一次了。

Simplicio：對訓練好的網路進行可解釋性工作很困難，對吧？所以與其那樣，不如我們選擇一種架構或訓練目標，從一開始就產出具有可解釋性的網路？

我：如果我們手頭上有「未來的教科書」，那或許行得通。但在實踐中，你打算使用的某些特定架構或目標通常是行不通的。

Simplicio：這聽起來像是一個經驗性問題！在嘗試之前，我們無法知道它是否有效。而且我也想不出任何它會失敗的理由。

我：好，讓我們具體一點。你心目中想的是什麼樣的架構或目標？

Simplicio：決策樹！它們具有高度的可解釋性，而且我的決策論教科書說它們在原則上是完全通用的。所以我們就把網路做成樹狀，然後訓練它！或者，如果那還不夠通用，我們就訓練一堆樹狀網路作為「專家」，然後以某種方式將它們混合。

我：結果我們早就試過那個了！那叫隨機森林（Random Forest），在 2000 年代風靡一時。

Simplicio：所以我們只要回歸到那個就好？

我：唉，它們既混亂，且以今天的標準來看表現也非常平庸。我的意思是，如果你在裡面深挖，通常可以找到一些可解釋的結構，但隨機森林的可解釋性問題與當今網路的可解釋性問題在性質上是相似的；你無法只看一眼就讀懂發生了什麼，或者內部的各個部分代表什麼。

Simplicio：好吧，那如果我們把這個想法微調成——

我：還是行不通。

Simplicio：你甚至都不知道我要說什麼！

我：假設有人試圖畫一張紐約市的地圖，結果畫得完全錯誤。然後他們說「如果我們微調一下呢？」並在完全不看紐約市或任何真實紐約地圖的情況下進行微調。如果有人真的這麼做，實際發生的結果是，那張地圖仍然會是完全錯誤的。

Simplicio：我猜這是在類比我正在做的事情？

我：是的。根本問題在於現實世界有一套偏好的本體論（Ontology），而你正試圖在沒有進行發現工作的情況下，去猜測那套本體論（或者更糟的是，幻想你可以選擇它）。現實世界（或針對它訓練的網路）並不能乾淨地分解為決策樹，也不能乾淨地分解為決策樹的混合體，更不能乾淨地分解為你接下來準備猜測的任何東西。現實世界（或針對它訓練的網路）確實在很大程度上可以乾淨地分解——儘管那是另一個討論。但發現這種分解需要付出努力，需要大量觀察世界，或觀察針對世界訓練出來的事物。試圖靠猜測來確定本體論是注定失敗的，就像靠猜測來畫紐約地圖注定失敗一樣。

Simplicio：＜露出失望的表情＞

Me：這是你唯一的大想法嗎？你現在發現它行不通，感到備受打擊，同時又拼命想找些方法來挽救它？但你也注意到自己正在這麼做，並因此感到難受？

Simplicio：……有點，是的。

我：你還會有更多想法的。現在這種感覺很糟，但長遠來看，你可以擁有多個想法並建立起能找到更多想法的信心，到那時，捨棄行不通的想法就會變得容易許多。

Sophisticus：我有一個比 Simplicio 的想法更不那麼「草率」的版本想跟你討論。

稀疏性（Sparsity）！＜爵士手勢＞

我：請說具體一點。

Sophisticus：嗯，顯而易見的做法是在損失函數中加入一個 L1 範數項來約束激活值……

我：……這大概已經有很多人以某種方式嘗試過了，然後他們寫了論文，爭辯說如果你瞇著眼睛看，效果還算可以，但這並不是很令人信服……

Sophisticus：……沒錯，所以我們改為對激活值執行聚類算法，然後對聚類成員機率使用 L1 範數，接著再結合權重上的第二個 L1 項來抵消——

我：好，慢著。記得我告訴過 Simplicio，根本問題在於試圖猜測本體論而不是發現它嗎？他隱喻式地試圖在不觀察城市或地圖的情況下畫出紐約市地圖。

那麼，你所看到的關於現實世界的證據是什麼？你在現實領土或現有的領土圖中看到了什麼，能告訴我們你提案中的細節確實是地圖中準確的部分？例如，你觀察到了世界的什麼事實，能告訴我們權重上的第二個 L1 項以抵消某某東西，是自然本體論中固有的一部分？

Sophisticus：嗯。好吧，環顧四周，世界上確實存在大量的資訊稀疏性。

我：這點我同意。但你的提案涉及了所有這些額外的細節。稀疏性並不意味著 L1 範數，雖然 L1 範數是訓練出「某種」稀疏東西的便捷方法，但這並不意味著它會給出正確的稀疏東西。無論你想在上面疊加什麼特定的聚類算法，顯然也不一定是正確的做法。同樣不清楚的是，為什麼這個特定架構中的內部激活值從一開始就是應該使其稀疏的正確對象。還有，為什麼偏偏是權重上帶有 L1 範數的第二項？

在繪製城市地圖時，每一個微小的細節、每一條路和標籤，都必須透過觀察世界來確定。我們不能只從一個模糊的大局出發，然後隨意填補細節。學習本體論時也是如此：操作化的每一個微小細節都需要透過觀察領土來確定。不僅僅是以一種模糊的「似乎有點直覺」的方式，而是以一種「我們有證據確定這種特定形式，即排除所有其他替代方案」的方式。

Sophisticus：我覺得你太悲觀了！即使我的猜測不完全正確，它們也可能足夠接近。你自己也主張自然本體論是收斂的，所以它們至少應該對學習架構的細節具有一定的魯棒性，對吧？只要猜測足夠接近，我們就可以透過迭代來改進它。

我：這裡面確實有一些好想法的雛形，但就實際操作而言，你這是在搬起石頭砸自己的腳。如果你擁有的反饋迴路好到足以讓你一開始就那麼接近，並且能成功進行任何迭代，那麼你起步時的畫面大概會比你現在擁有的清晰得多。

具體想像一下這個場景：你構建了你的東西，結果發現它與現實的本體論並不匹配。那之後你會得到什麼反饋？你會怎麼處理它？只要你錯過了現實的本體論，事情看起來就會一團糟。你不會得到關於正確本體論長什麼樣的大量資訊流（firehose of bits），而只會得到一個「你沒搞對」的單一訊號。你可以嘗試在上面貼補丁讓事情看起來稍微好一點，但你在一個維度過高的空間裡工作，最後只會留下更多的混亂。

如果你想製造出真正有效的內在可解釋架構，靠「猜測與檢查」是行不通的。對大局想法有一點點證據，然後對成千上萬個細節進行「猜測與檢查」，同樣無法讓你達成目標，甚至無法讓你更有意義地接近它。你需要找到一種方法，獲取更多關於自然本體論所有細節的證據。

— Lesswrong

你的個人知識庫

為何不直接針對可解釋性進行訓練？