我們對社群安全的承諾

我們對社群安全的承諾

OpenAI·

了解 OpenAI 如何透過模型安全防護、濫用偵測、政策執行以及與安全專家合作,在 ChatGPT 中保護社群安全。

2026 年 4 月 28 日

我們對社群安全的承諾

大規模槍擊事件、對公職人員的威脅、炸彈襲擊企圖,以及對社群和個人的攻擊,是當今世界中令人無法接受且嚴峻的現實。這些事件提醒我們,暴力威脅是多麼真實,而暴力的意圖從言語轉化為行動的速度又是多麼迅速。

人們也可能將這些時刻和情緒帶入 ChatGPT。他們可能會詢問有關新聞的問題、試圖理解發生的事情、表達恐懼或憤怒,或者以虛構、歷史、政治、個人或潛在危險的方式談論暴力。我們致力於訓練 ChatGPT 辨別其中的差異,並在對話開始轉向威脅、對他人的潛在傷害或現實世界的計劃時劃定界限。

我們正在分享我們為減少服務被用於促進暴力或其他傷害所做的工作:我們的模型如何接受安全回應的訓練、我們的系統如何偵測潛在的傷害風險,以及當有人違反我們的政策時我們採取什麼行動。我們不斷改進保護個人和社群的措施,並參考心理學家、精神科醫生、公民自由和執法專家的意見,他們協助我們在安全、隱私和民主化存取等艱難決策中導航。

我們如何減輕 ChatGPT 中的傷害風險。

我們的模型規範⁠(在新視窗中開啟)闡述了我們對模型行為的長期原則:透過明智的預設設置,在最大限度提高幫助性和使用者自由的同時,將傷害風險降至最低。

我們致力於訓練模型拒絕提供可能實質促成暴力的指令、策略或計劃的請求。與此同時,人們可能會出於事實、歷史、教育或預防原因詢問有關暴力的中立問題,我們的目標是在維持明確安全界限的同時允許這些討論——例如,省略可能助長傷害的詳細操作指令。良性與有害用途之間的界限可能很微妙,因此我們不斷完善我們的方法,並與專家合作,以協助區分安全、受限的回應與實施暴力或其他現實世界傷害的可執行步驟。

作為這項持續工作的一部分,我們繼續擴展安全保障措施,以協助 ChatGPT 在不同情境下更好地識別微妙的傷害風險跡象。某些安全風險只有隨著時間推移才會變得清晰:單一訊息本身可能看起來無害,但在長對話中(或跨對話)的更廣泛模式可能暗示著更令人擔憂的情況。基於多年來在模型訓練、評估和紅隊演練(red teaming)方面的努力,以及持續的專家意見,我們強化了 ChatGPT 在漫長且高風險的對話中識別微妙預警信號並謹慎回應的能力。我們將在未來幾週分享更多關於這項工作的資訊。

我們的安全工作還擴展到使用者可能處於困境或有自我傷害風險的情況。在這些時刻,我們的目標是避免助長有害行為,並協助緩解局勢,引導人們尋求現實世界的支援。ChatGPT 會呈現當地的危機資源,鼓勵人們聯繫心理健康專業人士或信任的親友,並在最嚴重的案件中指示人們尋求緊急協助。

我們如何監控並執行規則。

我們對使用者抱持最大的信任,但當我們偵測到有人企圖利用我們的工具來潛在規劃或實施暴力時,我們會採取行動,包括撤銷其對 OpenAI 服務的存取權限。我們的使用政策⁠對可接受的使用方式設定了明確的期望,我們可能會禁止將服務用於威脅、恐嚇、騷擾、恐怖主義或暴力、武器開發、非法活動、破壞財產或系統,以及企圖規避我們的安全保障措施。我們嚴肅對待這些政策,並努力執行。

我們使用自動偵測系統來大規模識別潛在令人擔憂的活動。這些系統使用一系列工具分析使用者內容和行為,旨在識別可能表明違反政策或有害活動的信號,包括分類器、推理模型、雜湊匹配技術、黑名單和其他監控系統。

當一個帳號或對話被標記時,將由受過訓練的人員在情境中進行評估。這些人工審核員接受過我們的政策和協議培訓,並在既定的隱私和安全保障框架內運作,這意味著他們對使用者資訊的存取受到限制,在安全系統內進行,並受保密和數據保護要求的約束。他們的角色是在情境中評估被標記的活動,包括互動內容、周圍對話以及隨時間推移的任何相關行為模式。這種情境審查非常重要,因為自動化系統可能會識別出潛在擔憂的信號,但無法完全掌握意圖或細微差別。

目標是確定被標記的活動是否違反了我們的政策,及/或表明使用者可能實施暴力行為、是否需要升級以進行更詳細的人工審查,或者是否可以作為低風險或未違規而予以駁回或降低優先級。當我們確定發生了可封禁的違規行為時,我們的目標是立即撤銷其對 OpenAI 服務的存取權限。這可能包括停用帳號、封禁該使用者的其他帳號,以及採取措施偵測並阻止開設新帳號。對於使用我們的工具協助實施暴力,我們採取零容忍政策。人們可以對執行決定提出申訴,我們會審查這些申訴以確認結果。

我們提供現實世界的支援,並在適當時轉介給執法部門。

大多數執行行動(包括因暴力行為而封禁)直接發生在 OpenAI 與使用者之間,明確告知他們已逾越界限。但在某些敏感案件中,我們可能會聯繫最能提供協助的第三方。

當我們評估某個案件呈現出潛在嚴重現實傷害的指標時,會將其升級以進行更深入的調查,包括使用結構化標準評估整體風險水平。此階段僅保留給有限的案件子集,旨在確保高風險情境能獲得額外的情境和專業知識評估。當對話顯示出對他人有迫在眉睫且可信的傷害風險時,我們會通知執法部門。心理健康和行為專家協助我們評估困難案件,且我們的轉介標準具有靈活性,以考慮到使用者可能不會在 ChatGPT 對話中明確討論計劃暴力的目標、手段和時間,但仍可能存在迫在眉睫且可信的暴力潛在風險。

去年秋天,我們推出了家長控制功能⁠,以協助家庭引導 ChatGPT 在家中的運作方式。家長控制允許父母將其帳號與青少年的帳號連結,並自定義設置以獲得安全、適合年齡的體驗。父母無法存取青少年的對話,而在我們的系統和受過訓練的人工審核員偵測到可能存在嚴重困境跡象的極少數情況下,父母可能會收到通知——但僅限於支持青少年安全所需的資訊。父母會透過電子郵件、簡訊、推播通知或這三種方式自動收到通知。

透過與我們的福祉與 AI 委員會以及全球醫師網絡的專家密切合作,我們很快還將推出「信任聯絡人」功能,這將允許成年使用者指定一個人在他們可能需要額外支援時接收通知。

我們學習、改進並修正方向。

我們根據觀察到的使用情況、新興風險以及內部和外部專家的意見,持續強化我們的模型、偵測方法、審查流程和升級標準。我們特別關注困難案例:例如,不清楚特定輸入是合法還是構成傷害風險的情況;規避安全保障的複雜企圖;或者人們反覆嘗試濫用我們服務的情況。我們將繼續優先考慮安全⁠,同時平衡隱私和其他公民自由,以便我們能針對嚴重風險採取行動。

您可以閱讀更多關於我們的安全工作與承諾⁠,並註冊以接收我們政策的更新⁠。

作者

延伸閱讀

System Card Card SEO 1x1

安全 | 2026 年 4 月 23 日

GPT-5.5 Bio Bug Bounty > art card

安全 | 2026 年 4 月 23 日

accelerating-cyber-defense-ecosystem-1x1

資訊安全 | 2026 年 4 月 16 日

OpenAI

相關文章

  1. 關於我們心理健康相關工作的最新進展

    2 個月前

  2. 負責任且安全地使用人工智慧

    19 天前

  3. 我們在年齡預測方面的做法

    3 個月前

  4. 推出 ChatGPT Health

    4 個月前

  5. ChatGPT 推出鎖定模式與高風險標籤

    2 個月前

其他收藏 · 0