文本壓縮技術有助於保護模型權重安全

Lesswrong·大約 1 個月前

本文探討了先進的文本壓縮技術如何顯著降低出口限制，透過為偵測系統爭取更多時間來防止模型外洩。

相關論文：連結^([1])

論文共同作者：Roy Rinberg、Annabelle Michael Carrell、Simon Henniger、Nicholas Carlini、Keri Warr

兩年前，Ryan Greenblatt 寫了一篇題為「透過上傳限制防止模型外洩」的文章。該文的核心概念很簡單：如果連接 GPU 的單一線路每天僅允許 100 GB 的數據流出（egress），那麼即便攻擊者完全控制了該 GPU，他們也無法在一天內竊取超過 100 GB 的數據。

主要的挑戰在於，你設置的流出限制不能低於你需要發送給客戶的數據量。為了將此概念具體化，我們進行一些粗略的估算：我估計 OpenAI 每天產生約 1 TB 的文本，而一個尖端模型（frontier model）的大小也大約是 1 TB^([2])。因此，單靠流出限制只能在攻擊者竊取權重前為我們爭取大約 1 天的時間。

在擁有良好的監控與事件響應系統的情況下，攻擊者會傾向於在低於檢測閾值的範圍內盡可能多地外洩數據。任何外洩嘗試都必須在「隱蔽性」與「外洩量」之間做權衡：試圖竊取的數據越多，被抓獲的可能性就越高。

一個顯著的例外是，如果攻擊者能在單次操作中竊取整個模型，那麼即便被發現也無濟於事，因為在防禦者做出反應時，權重已經流失了。流出限制是一個強大的最後防線：即便攻擊者完全入侵了系統，他們外洩的速度也無法超過物理限制。流出限制可以被視為為檢測與響應系統爭取啟動時間的手段。^([3])

Greenblatt 的文章基於一個簡單的觀察來擴展此設計：文本是相當可壓縮的，且本質上比模型權重更具壓縮性^([4])。因此，我們可以在文本離開 GPU 之前對其進行壓縮，通過線路發送壓縮版本，並在另一端解壓縮。這縮減了合法市場所消耗的頻寬，讓我們能設置更嚴格的流出限制。

我們最近撰寫了一篇論文：《從 Haiku 到 Opus 僅需 10 位元：LLM 開啟巨大的壓縮增益》，我們在文中實證研究了 LLM 輸出的可壓縮程度，並開發了新型的無損與有損壓縮技術。在本部落格及相關論文中，我們探討了現今即可實施的技術，以及更具前瞻性的技術；具體而言，我們探索了三個方向：

無損壓縮：使用 LoRA 來提高基於 LLM 的算術編碼（arithmetic coding）壓縮率。
有損重寫：一個實用的基準方案，即簡單地要求模型以壓縮格式重寫其自身的回答，然後進行壓縮。
提問式壓縮 (Question-Asking, QA)：我們進一步引入了提問式壓縮（QA），這是一種受「二十個問題」遊戲啟發的有損壓縮交互協議。在該協議中，一個小模型透過向更強的模型提出是非題來反覆修正其回答，每題答案僅傳輸 1 位元。

在本文中，我們將探討這些不同層次的壓縮對「最壞情況下的外洩時間」有何影響。我們假設一個實驗室每天產生約 1 TB 的文本，且模型大小約為 1 TB。假設使用量均勻，我們可以估計流出限制能提供 1 天的最壞情況外洩防護。

在相關情境中，我們可以輕易想像開源模型在本地部署時的安全性需求，此時模型是公開的，但其 LoRA 是私有的。根據我對約 20 位從事 AI 安全、API 調用和代理（例如 Claude Code）的同儕進行的初步估算（BOTEC），每週產生約 5GB 的流出數據，而流入數據約為其 20 倍。單個 LoRA 的大小通常在 10MB 到 200MB 之間。在這種設定下，團隊每天使用約 0.7 GB，這意味著外洩模型需要 1/70 到 1/3 天（約 20 分鐘到 8 小時）。

在本文的其餘部分，我們將圍繞兩個數據進行討論：

每日正常用戶流量為 1TB 時，模型（1TB）的最壞情況外洩防護時間：1 天
每日流出流量為 1GB 時，100MB LoRA 的最壞情況外洩防護時間：2.4 小時

註：這些數字並非精確值，若您有更好的估算，歡迎聯繫或留言。此外，討論壓縮的挑戰之一在於壓縮程度高度取決於壓縮的內容。對於前述的每個壓縮率，我們都會結合具體內容進行說明。

使用 LLM 進行無損壓縮

算術編碼是一種壓縮方案，當用於壓縮的機率分佈與數據的真實分佈匹配時，可以證明它能達到（近乎）最優的壓縮率。機率估計越準確，所需的位元就越少。LLM 的核心運作是產生下一個標記（token）的機率分佈，因此存在天然的聯繫：將文本逐個標記輸入模型，並利用每個下一個標記的分佈，透過算術編碼對相應標記進行編碼。

先前的工作（TS-zip、LLM-Zip、Language Modelling is Compression）顯示，基於 LLM 的算術編碼在 Wikipedia 等基準測試中可達到約 10% 的壓縮率，而 gzip 約為 33%。壓縮品質高度取決於模型分佈與被壓縮文本的匹配程度。通用 LLM 對 Wikipedia 的壓縮效果不錯，因為它很可能直接在 Wikipedia 上訓練過。然而，值得注意的是，此比率高度依賴於實際壓縮的內容。

我們透過領域適配的 LoRA 適配器來解決這個問題。LoRA 讓您能在基礎模型之上微調輕量級適配器，以極低的成本針對特定領域進行專門化。我們在多個主題上訓練了一系列 LoRA（例如醫療 LoRA、數學 LoRA 等）。我們在 LMSYS-Chat 和 WildChat（兩個大規模的真實用戶與聊天機器人對話數據集）的各個分區（透過無監督聚類創建）上評估了此方法，發現領域適配的 LoRA 將壓縮率從 0.18（基礎 Mistral-7B）降低到 0.09，提升了 2 倍。
即便使用僅根據 提示詞（prompt）本身（在看到回答之前）選擇合適 LoRA 的 RAG 路由器，我們仍能看到約 1.9 倍的提升（0.10 壓縮率）。

將此放入安全框架中，如果您要壓縮的文本看起來像 LMSYS，那麼僅使用算術編碼就能將時間延長約 5 倍，而使用 LoRA 則能再翻倍。

模型（1TB）在每日 1TB 正常流量下的最壞情況外洩防護：5 天 → 10 天
100MB LoRA 在每日 1GB 流量下的最壞情況外洩防護：0.5 天 → 1 天

有損壓縮

到目前為止，我們討論的是無損壓縮，即解壓縮後的文本與原文完全一致。然而，在大多數 LLM 聊天機器人交互中，並不需要重現特定的標記序列；聊天機器人只需要返回一個「有用」的回答。

這裡一種可行且直接的方法是，簡單地要求模型「在保留足夠信息以推斷正確答案的前提下，儘可能簡潔地」重寫其回答。實證顯示，在 AIME 和 MBPP（分別為數學和代碼數據集）的回答上，此方法達到了約 0.03 的壓縮率，約比單純無損壓縮好 2 倍。我們還測試了 N 選 1（best-of-N）基準方案（生成 N 個回答，保留最可壓縮的一個），這僅帶來約 30% 的提升，遠不如「直接要求」壓縮。

將此放入安全框架中，如果您要壓縮的文本看起來像數學/代碼基準測試，那麼使用算術編碼能將時間延長約 10 倍，而要求模型改寫則能再大約翻倍。

模型（1TB）在每日 1TB 正常流量下的最壞情況外洩防護：10 天 → 20 天
100MB LoRA 在每日 1GB 流量下的最壞情況外洩防護：1 天 → 2 天

提問式壓縮 (QA)

我們還引入了一種更極端的壓縮形式，靈感來自「20 個問題」遊戲。一個小語言模型 (SLM)（例如 Haiku）嘗試自行解決問題，然後向大語言模型 (LLM)（例如 Opus）提出一系列是非題（例如：「我處理積分的方法正確嗎？」、「我是否應該改用動態規劃？」）。接著，在 10 個問題後，小模型修正其答案。由於每個答案恰好是 1 位元，我們證明了用少於 10 位元來壓縮概念是可能的。

令人興奮的是，這些問題實際上不需要在 SLM 和 LLM 之間發送，因為給定提示詞後，LLM 可以在本地精確模擬 SLM 的提問。因此，只有提示詞（流入）和 LLM 的回答（流出）需要通過頻寬受限的屏障。

我們主要研究 QA 設定，即 Haiku 提問，Opus 回答，然後 Haiku 修正其原始回答。

雖然我們看到了顯著的增益，但我們發現該方案並非對 100% 的問題都有效。當 QA 壓縮方案無法恢復正確答案時，可能有幾種原因：

該方案本身可能不夠完善。
該方案通常可行，但 Haiku 不夠擅長提問，在未來的迭代中，該方案可能會表現更好。

為了考慮第二個原因，我們對「提問本身」的價值進行了消融研究，即由 Haiku 生成回答，然後調用 Opus 提出有助於改進的問題，再由另一個 Opus 實例回答，我們稱此方法為 QA+（雖然這不是一個現實的設定，但它仍能讓我們洞察此方案未來的應用方式）。

此外，我們觀察到整個過程是思維鏈（Chain-of-Thought）的一種受限形式，在某種程度上，我們給予了小模型更多的測試時計算量（test-time compute）來回答問題。作為基準，我們還運行了一個實驗，讓 Haiku 自問自答，我們稱之為 位元受限思維鏈 (BL-CoT)。

我們在數學（GSM8K、MATH、AIME）、科學（GPQA）、代碼（MBPP）和尖端挑戰（Humanity's Last Exam）上進行評估，並衡量「恢復率」：即 Haiku 原本答錯但經過協議後答對的問題比例。

我們發現，在較簡單的數據集上，此方法恢復了 Haiku 與 Opus 之間 23-72% 的差距；在較難的數據集上則恢復了 7-38%。同時，根據數據集的不同，它有效地實現了 0.004 到 0.0006 之間的壓縮率（當其奏效時）^([5])。

我們得出的一些高層次觀察是：QA 協議確實有效，但效果並不均勻。在較簡單的基準測試（GSM8K、MATH、GPQA）中，大部分的恢復來自於提問的結構，而非尖端模型的回答；單靠 BL-CoT 的表現幾乎與 QA 一樣好。在較難的基準測試（MBPP、HLE）中，尖端模型的回答更為重要，且 QA+ 帶來了進一步的增益^([6])。

關鍵在於，此方案尚未準備好投入生產——它並非 100% 有效，僅能成功壓縮部分回答。然而，如果它能確定性地運作，且您要壓縮的文本看起來像數學/代碼基準測試，那麼使用此類方案可以將最壞情況的外洩時間延長至：

模型（1TB）在每日 1TB 正常流量下的最壞情況外洩防護：250 天
100MB LoRA 在每日 1GB 流量下的最壞情況外洩防護：25 天

最後，必須注意這些壓縮方案並非防止用戶進行危險查詢的安全機制，它們僅是為了實現極端流出限制的安全機制。

未來方向

我相信這項工作為改進方案以及構想新的安全範式開啟了令人興奮的機會。

QA 壓縮潛在的技術改進

改進提問能力。 實證顯示 QA+ 優於 QA；因此，提高模型提問的能力似乎會非常有幫助。這可能僅透過更好的提示工程（prompting）就能實現。

可靠性。 目前，QA 僅在部分時間能顯著改善小模型的回答。為了使此方法在實踐中有用，需要使其更加穩健可靠——可靠地產生較小的壓縮率，似乎比偶爾產生巨大的壓縮率更有價值。然而，算術編碼始終可以作為 QA 壓縮方案的後盾，如果私有（大）LLM 檢測到公開（小）LLM 無法恢復答案，則作為「最壞情況」的壓縮手段。

LLM 主導的信息注入。 我們的協議完全依賴小模型提出正確的問題，但有些問題不適合這種格式。如果小模型缺乏關鍵知識，任何二進制問題序列都無法使其浮現（例如：「17 的平方根是多少（精確到小數點後 6 位）」：如果你不知道如何計算，就很難透過足夠的是非題來弄清楚）。允許尖端模型「注入」信息（如 "4.123105" 或 "使用牛頓法"）可能會有很大幫助。這與 Adversarial Compression Ratios (ACR) 的工作密切相關。（註：雖然我未能成功擴展 ACR，但我確信這裡有很多值得探索的地方）。

一個可能的未來：遞歸地請教最睿智的僧侶

這項工作描述的 QA 壓縮方案考慮的是單個強大模型與單個較弱模型的交互。但這個想法自然可以擴展到層級化設定。

想像一系列按層級排列的模型，其中每個內層包含更強大的模型，並受到更嚴格的流出限制保護（類似於訪問敏感文件的絕密協議）。層級間的通信透過 QA 風格的壓縮進行，最強大的模型位於中心，僅透過頻寬受限的層層中介向外傳輸信息。

如下圖所示：

在無損模式下，每一層傳輸相同的底層信息，但使用自己的模型進行編碼。隨著我們向外移動（圖中向左），較弱的模型需要更多位元來表示相同的內容。因此，外層消耗更多頻寬，而最內層模型所需的流出量最少。理論上，這種方案今天就可以實施。

在有損模式下，情況更為複雜。隨著信息向外移動，低層模型可能會對其進行重新解釋或簡化。在某些情況下，這可能使內容更具壓縮性；而在其他情況下，較弱的模型可能需要大量的交互才能解決複雜的概念。我很難預測這會如何發展。

然而，值得注意的是，如果模型的危險性與其能力成正比，那麼這是一種有價值的方法；但如果所有超過特定能力的模型都被視為極度危險，那麼這種層級化的流出限制可能就沒那麼有價值了。

在有損壓縮模式下，此方案目前無法直接實施，在嘗試構建之前需要改進幾件事。特別是，任何有損壓縮方案都必須對失效模式提供強有力的保證。在大多數敏感設定中，機率性或無聲的失敗是不可接受的，因此至少錯誤必須是可檢測的。

哲學思考

思考 QA 壓縮迫使我從新視角看待 LLM 如何開啟新的交互形式與世界框架。最令人興奮的是，這個方案讓我產生了三個關於科學以及我曾認為是科幻小說的半原創想法。

從純粹的哲學角度來看，這個提問框架為科學過程本身提供了一個視角。當化學家想要合成一種新化學物質時，他們形成假設，進行實驗，並得到一個低位元的答案：成功或失敗。接著，如果實驗失敗，科學家會帶著新問題回到原點：「是溫度不對嗎？」、「我用錯催化劑了嗎？」從這個角度看，每一次實驗都是向自然界提出的一個是非題。這對應到 QA 壓縮方案：科學家是較弱的小模型，負責制定候選方案並提出二進制問題；而自然界則是提供是非反饋的 LLM。這種框架和本文為那句教學名言提供了可量化的支持：科學的難點在於提出一個好問題。

其次，我發現這個提問框架可以用作衡量兩個智能體在特定主題上相對信息量的一種手段，這點意義深遠。相對信息量在技術和哲學上都很難衡量——關於「神經網絡」這個主題，Geoffrey Hinton 比我多知道多少信息？那關於「煎歐姆蛋」呢？提問框架為開始回答這類深刻問題提供了結構，並帶有相對緊確的界限。我注意到這與最近關於「Adversarial Compression Ratios」的工作風格相似，該工作透過觸發精確文本生成所需的最少標記數，來衡量 LLM 對文本的記憶程度。

最後，也是最像科幻小說的一點，我現在認為 LLM 真的會引入一種新型的極低頻寬通信。雙方可以模擬同一個模型，然後為了交流一個複雜的想法，他們只需要傳遞彼此共享表示之間的「差異」。非常複雜的想法將能夠透過極低頻寬的渠道發送。雖然這最後一個想法以前出現在一些著作中，但我還沒看到它被轉化為實踐。

結語

我認為文本壓縮在使流出限制成為防止模型權重外洩的「更有意義」防禦手段方面，發揮著重要作用。歡迎提出反對意見。如果您有興趣從事與此相關的研究，或實施類似方案的開發工作，請與我聯繫。

致謝

非常感謝這項工作的共同作者，特別感謝 Maria Kostylew 對本部落格文章的評論。感謝 Coefficient Giving、MATS、Anthropic 和哈佛大學提供的計算額度、GPU 使用和資金支持。

附錄：QA 壓縮轉錄樣本的分析與示例

觀察轉錄樣本，小模型會生成是非驗證問題，逐步檢查自己的解決方案。有趣的是，在恢復的問題中，有 31% 的問題其所有答案都被尖端模型確認為「是」；單靠結構化的自我驗證就足以修正錯誤。例如，在一個 GSM8K 稅務問題中，Haiku 問道：「該解決方案是否正確地僅對非食品小計應用了 10% 的稅率？」以及「是否所有五件商品都以正確的價格計入？」；尖端模型確認了每一項，而 Haiku 隨後仍修正了其答案。

在另外 37% 的恢復案例中，小模型提出的大多是確認性問題，但會暴露出一個或兩個關鍵的誤解。在一個 GSM8K 應用題中，Haiku 問道：「『比第四個朋友多 10 倍』是指加上第四個朋友按壓次數的 10 倍嗎？」，尖端模型回答「否」，精確指出了誤讀之處；其餘四個問題均獲得確認。這種模式（即小模型的方法基本正確，只需要針對性的修正）佔了成功恢復的大多數。

當 QA 失敗時，轉錄樣本揭示了兩種典型的失敗模式。一種是小模型驗證了錯誤解題路徑的所有步驟。例如，在一個 MATH 代數問題中，Haiku 仔細檢查了其因式分解和符號分析的每一步，尖端模型全部予以確認，但其根本設定是錯誤的，且問題從未觸及該核心。在另一種失敗模式中，小模型過於混亂，以至於無法提出有用的問題。這在代碼基準測試 (MBPP) 中尤為明顯，小模型詢問的是邊緣情況、類型提示和錯誤處理（「函數是否應該驗證半徑為非負數？」、「添加類型提示是否有益？」），而不是探究其實際的錯誤，因此修正沒有幫助，因為它們與真正的問題無關。

附錄及下方列出了一些轉錄樣本。我們將轉錄樣本集上傳至 Hugging Face。

^(^) 這本應發佈在 Arxiv 上，但目前已擱置數週；一旦上傳，我將更新連結。
OpenRouter 的 AI 現狀報告顯示，2025 年 11 月每週約有 7 兆個標記，即每天約 1 兆個標記。按每個標記 2 位元組計算，大約是 500 GB。如果大約一半是輸出標記（實際可能更少），OpenRouter 每天為所有模型提供約 250 GB 的輸出標記。粗略猜測 OpenAI 產生的標記量約為 OpenRouter 的 4 倍，即約 1 TB。↩︎
值得注意的是，Anthropic 已將流出限制部署為其防禦措施的一部分：https://www.anthropic.com/news/activating-asl3-protections。↩︎
不過，確實有人嘗試壓縮模型權重；無損：https://arxiv.org/abs/2504.11651，有損：https://arxiv.org/abs/2601.01296。↩︎
具體來說：Opus 對 AIME 問題的典型回答約為 1,083 個標記，或約 18,000 位元，而此方法將回答壓縮在 10 位元內。↩︎
我們還測試了將問題數量從 10 個增加到 100 個，但增益微小且不一致。瓶頸似乎在於問題的「品質」而非「數量」。我們使用 GPT-OSS-120B 作為小模型重複了這些實驗，並看到了類似的模式。↩︎

https://lesswrong.com/posts/GcbkprYPCjXdysLq4/text-compression-can-help-secure-model-weights