透過推論驗證防禦模型權重洩漏

Lesswrong·4 個月前

我們提出了一種透過驗證大型語言模型推論輸出來防止模型權重外洩的方法，利用推論過程近乎確定性的特性，限制攻擊者透過隱寫術隱藏資訊的空間。

作者：Roy Rinberg, Adam Karvonen, Alex Hoover, Daniel Reuter, Keri Warr

Arxiv 論文連結

一分鐘摘要

Anthropic 已採取上傳限制措施，以防止模型權重外洩。這個想法很簡單：模型權重非常龐大，而文字輸出很小，因此如果我們限制輸出頻寬，就可以讓模型權重的傳輸耗費極長時間。問題在於，現在的推論伺服器會產生海量的 Token（每天約 1TB 的 Token 量），而輸出文字通道正是唯一無法輕易限制的通道。

儘管如此，我們在這項研究中發現，大幅限制攻擊者利用這些輸出 Token 傳送資訊的量是可能的。這是因為大型語言模型（LLM）的推論幾乎是確定性的：如果你固定採樣種子（sampling seed）並重新生成輸出，超過 98% 的 Token 會完全一致。這意味著，企圖透過隱寫術（steganography，在看似正常的文字中嵌入隱藏訊息的實踐）傳送秘密資訊的攻擊者，在用戶通道中可利用的熵（entropy）非常少。我們證明，隱寫式外洩可以被限制在通過用戶通道傳送總資訊量的 0.5% 以下（例如從 1TB/天降至 5 GB/天），從而將外洩時間線延長 200 倍以上。

除了防止外洩，同樣的驗證技術還可以檢測推論錯誤（inference bugs），為當前的實驗室提供即時價值。

論文：驗證 LLM 推論以防止模型權重外洩

假設你被安置在一個擁有 root 權限的資料中心——你會如何在不被抓到的情況下，將模型權重從資料中心偷走？

你的第一個想法可能是將 USB 插入伺服器並卸載權重，然後帶著它們走出去（這就是史諾登的做法）。
如果這行不通，你的下一個想法可能是直接將權重上傳到某個第三方伺服器（例如某個雲端供應商）。
然而，這些較傳統的攻擊有較傳統的防禦手段，且許多通道相對容易限制；例如開發者的 SSH 存取和日誌記錄可以被限制在較小的傳輸量。Ryan Greenblatt 提議使用上傳限制來防止模型權重外洩，而 Anthropic 已公開宣佈實施「SL3」安全防護，其中包括出口限制（egress-limiting）——即限制數據流出存放 AI 模型權重的安全計算環境。

但限制推論輸出是不可行的。生產環境的推論伺服器必須向外界發送大量數據——這就是它的工作。你無法在不破壞服務的情況下限制這個通道。2024 年 2 月，Sam Altman 在推特上表示 ChatGPT 每天產生 1000 億個單詞，約合每天 200 GB 的文字（儘管這個數字現在可能已顯著增長）。在大規模運作下，透過輸出 Token 通道進行外洩變得可行，而且這是唯一一個你不能直接關閉的通道。如果模型權重為 1000Gb，而出口限制為 800GB/天，那麼透過任何通道外洩權重僅需 1.25 天。

如果攻擊者入侵了推論伺服器，他們可以將權重資訊編碼進模型的輸出中；攻擊者可以將 Token 映射到位元（bits），理論上每個 Token 可以攜帶約 17 位元（GPT-OSS 從約 20 萬個詞彙中提取 Token；log₂(200k) ≈ 17.5）。然而，這可以透過簡單的困惑度過濾器（perplexity filter，根據文字的整體可能性進行過濾）輕易檢測出來，因為輸出會是亂碼。儘管如此，自然語言本身仍存在顯著的熵可用於編碼資訊。

這引出了一個價值十億美元的問題：我們該如何防止從推論通道外洩權重？

圖 1：正常與受損推論流程的比較。在正常運作（左）中，推論伺服器僅返回模型輸出。如果受損（右），伺服器可以透過在看似普通的模型回應中進行隱寫編碼來外洩模型權重。

關鍵洞察：LLM 推論大多是確定性的

如果 LLM 推論是完全確定性的，我們只需透過重新執行推論並檢查 Token 是否完全一致來驗證輸出。如果沒有變化，則無法在輸出中編碼任何資訊。任何偏差都會立即被察覺。

然而，LLM 推論並非完全確定。呼叫同一個模型，使用相同的提示詞，你可能會得到不同的回應，即使固定了種子或將溫度（temperature）設為 0。這可能導致戲劇性的後果，有時在不同推論供應商上運行的相同模型會產生截然不同的輸出。非確定性可能源於多種噪聲源。例如，微小的配置錯誤（如使用錯誤的提示模板）會改變模型的行為。硬體差異也會引入數值上的特性，因為浮點精度在不同的 GPU 架構中有所不同。批次大小（Batch sizes）會微妙地改變中間計算。而在混合專家模型（MoE）中，即使是微小的浮點偏差也可能改變專家的路由決策，進而級聯成 Token 機率的巨大轉變。

儘管存在這些噪聲源，LLM 的行為比預期的要確定得多。固定採樣種子，重新執行推論，超過 98% 的 Token 會完全重現；即使是在不同的推論棧（如 vLLM 或 Hugging Face）、不同的硬體（A100 或 H100）或不同的並行設置下也是如此。而且當 Token 出現差異時，它幾乎總是與少數幾個候選 Token 互換，這嚴重限制了攻擊者可以隱藏的資訊量。

Thinking Machines 也有類似的發現：在 Qwen3-235B 上以溫度為零生成 1,000 個各含 1,000 個 Token 的完成結果，僅產生了 80 個唯一輸出，且所有輸出的前 102 個 Token 完全相同。我們也發現了類似的結果。

鑑於推論幾乎是確定性的，我們可以顯著限制傳出 Token 中的熵，從而對推論輸出中可編碼的資訊量設定資訊理論上的限制。

並非所有 Token 在非確定性下都具有同等可能性

我們工作的一個核心技術貢獻是將什麼算作「可接受的」非確定性正式化。我們定義了固定種子採樣可能性（Fixed-Seed Sampling Likelihood, FSSL）：給定一個種子和一個聲稱的 Token，在正常的數值噪聲下，它被誠實產生的機率是多少？

我們為此開發了估計器（針對 vLLM 中 Gumbel-Max 採樣的 Token-DiFR，以及針對 HuggingFace/Ollama 中逆機率轉換採樣的 Token-IPT-DiFR），根據在良性噪聲下被採樣的可能性為 Token 評分。[1] 在本部落格中，我們重點介紹 Token-IPT-DiFR，因為它更容易解釋和推理。

Token-IPT-DiFR 處理 HuggingFace 和 Ollama 等框架使用的採樣方法，這些框架使用逆機率轉換（inverse probability transform）來挑選 Token。在這種方案中，採樣器抽取一個隨機值 $u \in [0,1]$。

— Lesswrong