捐贈我們的開源對齊工具

Anthropic Research·2 天前

我們正將開源對齊測試工具箱 Petri 捐贈給非營利組織 Meridian Labs，這項舉措將有助於確保 Petri 保持獨立性，使其結果能被業界內外視為中立且具公信力。

捐贈我們的開源對齊工具

在 2025 年 10 月，我們推出了 Petri，這是一個可應用於任何大型語言模型的開源對齊測試工具箱。Petri 是作為我們 Anthropic 研究員計畫（Anthropic Fellows program）的一部分所開發的，可用於快速且輕鬆地測試 AI 模型是否具有令人擔憂的傾向，例如欺騙、阿諛奉承以及配合有害請求。這是我們致力於開發對整個 AI 開發社群開放且有用的對齊工具所做努力的一部分。

自 Claude Sonnet 4.5 以來，Petri 已成為我們對每個 Claude 模型進行對齊評估的一部分。它會比較新模型在由另一個獨立「審核者」（auditor）模型所模擬的一系列與對齊相關的場景中的行為。接著，再由另一個「裁判」（judge）模型對產生的對話紀錄進行評分，以檢測是否存在失準行為。

我們很高興看到 Petri 被外部組織使用：例如，英國 AI 安全研究院（AISI）將其作為評估模型是否具有破壞 AI 研究傾向的主要手段。

我們現在正將 Petri 更新至第三個版本。以下是一些重大的變化：

我們也為 Petri 找了一個新家。我們已將其開發工作移交給非營利 AI 評估機構 Meridian Labs。此舉——類似於我們將模型上下文協定（MCP）捐贈給 Linux 基金會——將有助於確保 Petri 保持獨立於任何 AI 實驗室，使其結果能被業界內外視為中立且具公信力。

作為 Meridian Labs 的一部分，Petri 加入了 Inspect 和 Scout 等其他工具的行列，在可靠的 AI 模型行為測試比以往任何時候都更重要的時刻，建立起一個對實驗室、獨立研究人員和政府開放的技術堆疊。

您可以在 Meridian Labs 的部落格上閱讀更多關於 Petri 3.0 的資訊。

安裝和使用 Petri 的說明可以在 Petri 網站上找到。

捐贈我們的開源對齊工具

Anthropic Research·2 天前

捐贈我們的開源對齊工具

我們很高興看到 Petri 被外部組織使用：例如，英國 AI 安全研究院（AISI）將其作為評估模型是否具有破壞 AI 研究傾向的主要手段。

我們現在正將 Petri 更新至第三個版本。以下是一些重大的變化：

您可以在 Meridian Labs 的部落格上閱讀更多關於 Petri 3.0 的資訊。

安裝和使用 Petri 的說明可以在 Petri 網站上找到。

捐贈我們的開源對齊工具

Anthropic Research·2 天前

捐贈我們的開源對齊工具

我們很高興看到 Petri 被外部組織使用：例如，英國 AI 安全研究院（AISI）將其作為評估模型是否具有破壞 AI 研究傾向的主要手段。

我們現在正將 Petri 更新至第三個版本。以下是一些重大的變化：

您可以在 Meridian Labs 的部落格上閱讀更多關於 Petri 3.0 的資訊。

安裝和使用 Petri 的說明可以在 Petri 網站上找到。

捐贈我們的開源對齊工具

Anthropic Research·2 天前

捐贈我們的開源對齊工具

我們很高興看到 Petri 被外部組織使用：例如，英國 AI 安全研究院（AISI）將其作為評估模型是否具有破壞 AI 研究傾向的主要手段。

我們現在正將 Petri 更新至第三個版本。以下是一些重大的變化：

您可以在 Meridian Labs 的部落格上閱讀更多關於 Petri 3.0 的資訊。

安裝和使用 Petri 的說明可以在 Petri 網站上找到。

你的個人知識庫

捐贈我們的開源對齊工具

捐贈我們的開源對齊工具

相關內容

自然語言自動編碼器：將 Claude 的思考轉化為文字

Anthropic 研究院的重點領域

人們如何向 Claude 尋求個人指引

捐贈我們的開源對齊工具

捐贈我們的開源對齊工具

相關內容

自然語言自動編碼器：將 Claude 的思考轉化為文字

Anthropic 研究院的重點領域

人們如何向 Claude 尋求個人指引

捐贈我們的開源對齊工具

捐贈我們的開源對齊工具

相關內容

自然語言自動編碼器：將 Claude 的思考轉化為文字

Anthropic 研究院的重點領域

人們如何向 Claude 尋求個人指引

捐贈我們的開源對齊工具

捐贈我們的開源對齊工具

相關內容

自然語言自動編碼器：將 Claude 的思考轉化為文字

Anthropic 研究院的重點領域

人們如何向 Claude 尋求個人指引