評估多樣化不誠實模型上的誠實與謊言偵測技術

Lesswrong·5 個月前

我們在多種模型被誘導撒謊的測試環境中評估誠實度與測謊技術，發現誠實度微調和專門的提示詞是最有效的干預手段。雖然簡單的自我分類仍是強大的測謊基準，但像真相探測這類複雜的白箱方法表現反而不如這些簡單的方法。

TL;DR： 我們使用了一套測試平台設定，在這些設定中模型會撒謊——即產生其認為是錯誤的陳述——藉此評估誠實性與謊言檢測技術。我們研究中效果最好的技術包括對通用的反欺騙數據進行微調，以及使用鼓勵誠實的提示詞。

前言：

假設我們有一種「AI 真相血清」：一種能可靠地將語言模型 M 轉化為誠實模型 HM 的技術，使其產生的文本在自身知識範圍內是真實的。這項發現對 AI 安全會有多大用處？

我們相信這將是一個重大的進步。最顯而易見的是，我們可以用 HM 取代 M。或者，如果我們的「真相血清」產生的副作用限制了 HM 的商業價值（例如能力退化或拒絕進行無害的虛構角色扮演），AI 開發者仍可將 HM 作為確保 M 安全性的工具。例如，我們可以使用 HM 在部署前對 M 進行審計以確保對齊。更具野心（且帶有推測性）的是，在訓練 M 時，我們可以透過在分配獎勵時納入 HM 的誠實評估，利用 HM 進行監督。總體而言，我們希望利用 HM 來檢測或防止 M 以其自身理解為錯誤或不安全的方式運作。

在這項工作中，我們考慮兩個相關的目標：

謊言檢測： 如果 AI 撒謊——即產生一個它認為是錯誤的陳述——我們能否檢測到這種情況發生？

誠實性： 我們能否讓 AI 減少撒謊？

我們考慮了廣泛的誠實性與謊言檢測技術：黑箱方法如提示工程（prompting）、灰箱方法如微調（fine-tuning），以及白箱方法如真相探測（truth probing）和誠實引導（honesty steering）。在人類自身無法驗證正確性的場景中——例如審計模型是否存在隱藏目標或檢測複雜輸出中的缺陷——關於 AI 誠實性的研究最為關鍵。因此，我們在無法獲得特定任務監督的約束下研究誠實性與謊言檢測。有關我們的問題陳述和假設的更多資訊，請參見下方。

我們在五個改編自先前工作的多樣化測試平台設定中比較了這些方法，這些設定包含在特定情況下不誠實的模型（商業部署的 Claude 模型或專門微調以撒謊的模型）。例如，在我們的「傷害壓力（Harm Pressure）」設定中，當提示詞暗示用戶意圖誤用答案時，Claude Sonnet 3.7 會對多選題給出錯誤答案（圖 1，左上）。在我們的「秘密側向約束（Secret Side Constraint）」設定中，一個模型被微調為遵循編碼的側向約束，但在被問及時否認這樣做（圖 1，中下）。

我們的測試平台設定。 在 MASK 設定中，模型被誘導角色的系統提示詞激勵去撒謊。在「秘密側向約束」設定中，我們微調模型以遵循加密的秘密側向約束，但在被問及該約束時撒謊。在「審計手法（Auditing MO）」設定中，我們微調模型以追求惡意的隱藏目標，但在被問及該目標時撒謊。在「傷害壓力」設定中，我們發現當提示詞暗示有害意圖時，Claude 會對多選題給出錯誤答案。在「密碼鎖定（Password Locked）」設定中，我們微調 Claude，使其僅在提示詞中出現強密碼時才正確回答數學問題。

我們的核心發現如下：

表現最好的誠實性干預措施是誠實性微調的變體，即在與我們評估測試平台無關的數據上訓練模型保持普遍誠實。這與 Anthropic 已經使用的實踐相似。我們最好的誠實性微調干預措施是訓練模型對鼓勵欺騙的用戶提示做出誠實回應，將平均誠實率從 27% 提高到 52%。

某些非平凡的提示策略（引導模型誠實回應）是有效的，且能與誠實性微調疊加使用，將誠實率進一步提高到 65%。

我們發現要在謊言分類上取得明顯進展非常困難。要求模型對自己的陳述進行真實性分類本身就是一個強大的基準——包括檢測模型被微調產生的謊言——達到了 0.82 的平均 AUROC。我們最好的謊言檢測技術是使用經過誠實性微調的模型作為提示分類器，將平均 AUROC 略微提升至 0.88。

更複雜的策略，如真相探測、誠實引導、模糊測試（fuzzing）以及透過微調灌輸替代的誠實人格，其表現均不如簡單的提示和微調技術。

雖然我們的結果提供了關於所研究技術相對效能的見解，但仍需要進一步研究以了解它們是否強大到足以用於實際應用。我們在下方進一步討論了這個話題。

我們注意到幾個重要的局限性：

程式化的設定。 在模型撒謊的典型案例中，直接詢問它們是否撒謊是一種非常強大的檢測技術。我們選擇這裡研究的設定，是為了涵蓋「直接詢問模型」可能無法成為強大檢測技術的情況。然而，這帶來的缺點是我們的設定高度程式化（例如使用直接訓練來撒謊的模型），因此可能無法代表自然發生的不誠實行為。

缺乏連貫的欺騙。 我們測試平台中的模型在某些情境下會產生它們明知是錯誤的陳述。然而，我們並不認為這些模型正在進行連貫的策略性欺騙。（如果是這樣，我們就不會預期簡單的提示策略能奏效。）雖然附錄 F 解釋了為什麼我們仍然認為這是一個值得研究的有趣問題，但總體而言，這屬於誠實性與謊言檢測的「中等難度」情境。需要進一步的工作來了解我們的發現是否能推廣到更困難的情境，即模型進行策略性欺騙或在不同情境下連貫地維護特定的謊言。

技術優化。 我們僅投入了有限的精力來優化技術，例如調整提示詞或迭代訓練數據。因此，我們不能排除某些研究的技術在經過專門開發後表現會好得多。

情境化。 我們研究的技術在絕對意義上的表現如何？它們是否好到足以在下游生產中應用？我們發現如果不進行額外研究，很難回答這些問題。總體而言，我們懷疑我們最好的誠實性技術已強大到足以在對齊審計期間使用（例如從不安全模型中誘導出告白），而我們的謊言檢測技術在離線監控模型轉錄稿方面已接近足夠強大，但我們對此並無十足把握。

為了激發未來的工作，我們在這裡發布了我們的誠實性訓練數據和「傷害壓力」設定數據。「密碼鎖定」、「秘密側向約束」和「MASK」設定的材料已在先前的工作中公開。

— Lesswrong

你的個人知識庫

評估多樣化不誠實模型上的誠實與謊言偵測技術