我們正將開源對齊測試工具箱 Petri 捐贈給非營利組織 Meridian Labs,這項舉措將有助於確保 Petri 保持獨立性,使其結果能被業界內外視為中立且具公信力。
在 2025 年 10 月,我們推出了 Petri,這是一個可應用於任何大型語言模型的開源對齊測試工具箱。Petri 是作為我們 Anthropic 研究員計畫(Anthropic Fellows program)的一部分所開發的,可用於快速且輕鬆地測試 AI 模型是否具有令人擔憂的傾向,例如欺騙、阿諛奉承以及配合有害請求。這是我們致力於開發對整個 AI 開發社群開放且有用的對齊工具所做努力的一部分。
自 Claude Sonnet 4.5 以來,Petri 已成為我們對每個 Claude 模型進行對齊評估的一部分。它會比較新模型在由另一個獨立「審核者」(auditor)模型所模擬的一系列與對齊相關的場景中的行為。接著,再由另一個「裁判」(judge)模型對產生的對話紀錄進行評分,以檢測是否存在失準行為。
我們很高興看到 Petri 被外部組織使用:例如,英國 AI 安全研究院(AISI)將其作為評估模型是否具有破壞 AI 研究傾向的主要手段。
我們現在正將 Petri 更新至第三個版本。以下是一些重大的變化:
我們也為 Petri 找了一個新家。我們已將其開發工作移交給非營利 AI 評估機構 Meridian Labs。此舉——類似於我們將模型上下文協定(MCP)捐贈給 Linux 基金會——將有助於確保 Petri 保持獨立於任何 AI 實驗室,使其結果能被業界內外視為中立且具公信力。
作為 Meridian Labs 的一部分,Petri 加入了 Inspect 和 Scout 等其他工具的行列,在可靠的 AI 模型行為測試比以往任何時候都更重要的時刻,建立起一個對實驗室、獨立研究人員和政府開放的技術堆疊。
您可以在 Meridian Labs 的部落格上閱讀更多關於 Petri 3.0 的資訊。
安裝和使用 Petri 的說明可以在 Petri 網站上找到。
像 Claude 這樣的 AI 模型用文字說話,但用數字思考。在這項研究中,我們訓練 Claude 將其思考翻譯成人類可讀的文字。
在 Anthropic 研究院(TAI),我們將利用從前沿實驗室內部獲得的資訊來調查 AI 對世界的影響,並與大眾分享我們的學習成果。在此,我們分享驅動我們研究議程的問題。
相關文章
其他收藏 · 0