OpenAI 隱私過濾器正式亮相

OpenAI 隱私過濾器正式亮相

OpenAI·

我們推出了 OpenAI 隱私過濾器,這是一個用於偵測與遮蔽文本中個人識別資訊(PII)的權重開放模型。此模型具備尖端的偵測能力且可於本地運行,旨在協助開發者更輕鬆地實施強大的隱私與安全保護。

2026 年 4 月 22 日

推出 OpenAI Privacy Filter

我們用於遮蔽文本中個人識別資訊 (PII) 的尖端模型

今天,我們發佈了 OpenAI Privacy Filter,這是一個用於檢測和遮蔽文本中個人識別資訊 (PII) 的開放權重模型。此次發佈是我們致力於支持更具韌性的軟體生態系統的更廣泛努力的一部分,旨在為開發者提供構建安全 AI 的實用基礎設施,包括讓強大的隱私和安全保護從一開始就更容易實施的工具與模型。

Privacy Filter 是一個具有前沿個人數據檢測能力的小型模型。它專為高吞吐量的隱私工作流設計,能夠對非結構化文本中的 PII 進行上下文感知檢測。它可以本地運行,這意味著 PII 可以在不離開您的機器的情況下被遮蔽或刪除。它能高效處理長輸入,並在快速的單次處理中做出遮蔽決策。

在 OpenAI,我們在自己的隱私保護工作流中使用 Privacy Filter 的微調版本。我們開發 Privacy Filter 是因為我們相信,憑藉最新的 AI 能力,我們可以將隱私標準提高到超越市場現有水平。我們今天發佈的 Privacy Filter 版本在 PII-Masking-300k 基準測試中達到了最先進的性能(在修正了我們在評估過程中發現的標註問題後)。

透過此次發佈,開發者可以在自己的環境中運行 Privacy Filter,針對自己的使用場景進行微調,並在訓練、索引、日誌記錄和審查流程中構建更強大的隱私保護。

具有前沿個人數據檢測能力的小型模型

現代 AI 系統中的隱私保護不僅僅依賴於模式匹配。傳統的 PII 檢測工具通常依賴於針對電話號碼和電子郵件地址等格式的確定性規則。它們在簡單案例中表現良好,但往往會遺漏更微妙的個人資訊,且難以處理上下文。

Privacy Filter 建立在更深層的語言和上下文感知基礎上,以實現更細緻的表現。透過將強大的語言理解能力與隱私特定的標籤系統相結合,它可以檢測非結構化文本中更廣泛的 PII,包括那些正確決策取決於上下文的情況。它能更好地區分哪些資訊因其公開性而應予以保留,以及哪些資訊因涉及私人個體而應予以遮蔽或刪除。

其結果是一個強大到足以提供前沿級隱私過濾性能的模型。同時,該模型體積小到足以在本地運行——這意味著尚未過濾的數據可以保留在設備上,降低洩露風險,而無需發送到伺服器進行去識別化處理。

模型概覽

Privacy Filter 是一個帶有跨度解碼(span decoding)的雙向標記分類(token-classification)模型。它從一個自回歸預訓練檢查點開始,然後被改造成一個基於固定隱私標籤分類法的標記分類器。它不是逐個標記生成文本,而是在一次處理中標記輸入序列,然後透過受限的 Viterbi 程序解碼出連貫的跨度。

這種架構為 Privacy Filter 提供了一些適用於生產環境的有用特性:

發佈的模型總參數為 15 億(1.5B),其中活動參數為 5000 萬(50M)。

Privacy Filter 預測涵蓋八個類別的跨度:

account_number 類別有助於遮蔽各種帳號,包括信用卡號和銀行帳號等銀行資訊,而 secret 則有助於遮蔽密碼和 API 金鑰等內容。

這些標籤使用 BIOES 跨度標籤進行解碼,這有助於產生更乾淨、更連貫的遮蔽邊界。

輸入文本示例

主旨:第二季度規劃跟進

嗨 Jordan,

再次感謝今天早些時候的會面。我想跟進第二季度推出的修訂時間表,並確認產品發佈定於 2026 年 9 月 18 日。供參考,項目文件列在 4829-1037-5581 下。如果您那邊有任何變動,請隨時回覆郵件至 maya.chen@example.com 或撥打我的電話 +1 (415) 555-0124。

祝好,

Maya Chen

遮蔽個人識別碼後的文本

主旨:第二季度規劃跟進

嗨 [PRIVATE_PERSON],

再次感謝今天早些時候的會面。我想跟進第二季度推出的修訂時間表,並確認產品發佈定於 [PRIVATE_DATE]。供參考,項目文件列在 [ACCOUNT_NUMBER] 下。如果您那邊有任何變動,請隨時回覆郵件至 [PRIVATE_EMAIL] 或撥打我的電話 [PRIVATE_PHONE]。

祝好,

[PRIVATE_PERSON]

我們如何構建它

我們分幾個階段開發了 Privacy Filter。

首先,我們建立了一個隱私分類法,定義了模型應檢測的跨度類型。這包括個人識別碼、聯繫詳情、地址、私人日期、多種不同類型的帳號(如信用卡和銀行資訊),以及秘密資訊(如 API 金鑰和密碼)。

其次,我們透過將語言建模頭替換為標記分類頭,並使用監督分類目標進行後訓練,將預訓練的語言模型轉換為雙向標記分類器。

第三,我們在公開數據和合成數據的混合體上進行了訓練,旨在捕捉現實文本和困難的隱私模式。在標籤不完整的公共數據部分,我們使用模型輔助標註和審查來提高覆蓋率。我們還生成了合成示例,以增加格式、上下文和隱私子類型的多樣性。

在推理時,模型的標記級預測使用受限序列解碼被解碼為連貫的跨度。這種方法保留了預訓練模型的廣泛語言理解能力,同時使其專門用於隱私檢測。

Privacy Filter 的表現如何

我們在標準基準測試以及旨在測試更困難、更具上下文敏感性案例的額外合成和聊天式評估中對 Privacy Filter 進行了評估。

在 PII-Masking-300k(在新視窗中開啟)基準測試中,Privacy Filter 達到了 96% 的 F1 分數(94.04% 的精確率和 98.04% 的召回率)。在修正了評估期間發現的數據集標註問題後的版本中,F1 分數為 97.43%(96.79% 的精確率和 98.08% 的召回率)。

我們還發現該模型可以被高效地適應。即使在少量數據上進行微調,也能迅速提高特定領域任務的準確性,將 F1 分數從 54% 提高到 96%,並在我們評估的領域適應基準測試中接近飽和。

除了基準測試表現外,Privacy Filter 專為處理雜亂、現實世界文本中的實際隱私過濾而設計。這包括長文件、模糊引用、混合格式字符串和與軟體相關的秘密。模型卡(在新視窗中開啟)還報告了針對代碼庫中秘密檢測的定向評估,以及跨多語言、對抗性和上下文依賴示例的壓力測試。

局限性

Privacy Filter 不是匿名化工具、合規認證,也不是高風險環境下政策審查的替代品。它是更廣泛的「隱私設計」(privacy-by-design)系統中的一個組件。

它的行為反映了它所訓練的標籤分類法和決策邊界。不同的組織可能需要不同的檢測或遮蔽政策,而這些政策可能需要領域內評估或進一步微調。性能也可能因語言、腳本、命名慣例以及與訓練分佈不同的領域而異。

與所有模型一樣,Privacy Filter 也會犯錯。它可能會遺漏不常見的識別碼或模糊的私人引用,並且在上下文有限(尤其是短序列)時,可能會對實體進行過度或不足的遮蔽。在法律、醫療和金融工作流等高敏感領域,人工審查以及特定領域的評估和微調仍然至關重要。

可用性

我們發佈 OpenAI Privacy Filter 是為了支持整個生態系統中更強大的隱私保護。

該模型今天已在 Hugging Face(在新視窗中開啟)和 Github(在新視窗中開啟)上以 Apache 2.0 許可證發佈。它旨在用於實驗、定制和商業部署,並且可以針對不同的數據分佈和隱私政策進行微調。

除了模型之外,我們還分享了涵蓋模型架構、標籤分類法、解碼控制、預期使用場景、評估設置和已知局限性的文檔,以便團隊了解模型的優勢以及應謹慎使用的領域。

展望未來

AI 系統的隱私保護是研究、產品設計、評估和部署中一項持續的努力。

Privacy Filter 反映了我們認為重要的一個方向:在對現實世界 AI 系統至關重要的狹窄定義任務中,具有前沿能力的小型、高效模型。我們發佈它是因為我們認為隱私保護基礎設施應該更容易檢查、運行、適應和改進。

我們的目標是讓模型學習關於世界的知識,而不是關於私人個體的知識。Privacy Filter 讓這成為可能。

我們發佈 Privacy Filter 的預覽版,以接收來自研究和隱私社群的反饋,並進一步迭代模型性能。

作者

延伸閱讀

OAI GPT-Rosaling Art Card 1x1

研究 | 2026 年 4 月 16 日

model spec > art card

研究 | 2026 年 3 月 25 日

Safety research the challenge > Cover Image

研究 | 2026 年 3 月 10 日

OpenAI

相關文章

  1. 協助開發者為青少年打造更安全的 AI 體驗

    29 天前

  2. OpenAI Frontier 正式亮相

    3 個月前

  3. OpenAI 推出安全漏洞賞金計畫

    29 天前

  4. 我們如何監控內部程式編寫代理的對齊失誤

    大約 1 個月前

  5. 在 AI 時代透過隱私導向的使用者體驗建立信任

    MIT Technology Review · 7 天前