newsence
協助開發者為青少年打造更安全的 AI 體驗

協助開發者為青少年打造更安全的 AI 體驗

OpenAI·12 天前

我們正在發布一套以提示詞為基礎的安全政策,配合開源權重模型 gpt-oss-safeguard 使用,協助開發者建立適合年齡的保護措施並管理青少年特有的風險。

2026 年 3 月 24 日

幫助開發者為青少年打造更安全的 AI 體驗

推出一組格式化為 gpt-oss-safeguard 提示詞的青少年安全政策

今天,我們發布了基於提示詞的安全政策⁠(在新視窗中開啟),旨在幫助開發者為青少年建立適齡的保護措施。這些政策專為配合我們的開源權重安全模型 gpt-oss-safeguard⁠(在新視窗中開啟)而設計,簡化了開發者將安全需求轉化為實用分類器以應用於現實系統的過程。

我們發布開源權重模型是為了讓大眾能更平等地接觸強大的 AI,並支持廣泛的創新。同時,我們相信安全與創新並行不悖,開發者應該在獲得高效能模型的同時,也能獲得安全、負責任地部署這些工具的工具與政策。我們在 Common Sense Media⁠(在新視窗中開啟)和 everyone.ai⁠(在新視窗中開啟)等受信任的外部組織建議下,開發了這些政策,以支持開發者在保護年輕用戶方面的安全工作。

我們認識到青少年與成年人有不同的需求,且青少年需要額外的保護。這些政策旨在幫助開發者考慮到這些差異,並打造既能賦能又適合年輕用戶的體驗。

立足於我們保護年輕人的廣泛工作

長期以來,我們一直致力於打造既能為年輕人擴展機會,又能確保其安全的 AI。作為這項工作的一部分,我們更新了模型規範(Model Spec)⁠(在新視窗中開啟)——即定義 OpenAI 模型預期行為的指南——納入了 18 歲以下(U18)原則⁠(在新視窗中開啟),並推出了家長控制和年齡預測等產品級安全措施,以更好地保護年輕用戶。我們還透過《青少年安全藍圖》(Teen Safety Blueprint)呼籲全行業共同加強保護。

今天的發布建立在這一基礎之上。我們向開發者提供這些安全政策,以支持他們部署針對青少年的安全保護,並幫助推動開源權重生態系統中的安全普及。

將青少年安全轉化為清晰、可用的政策

雖然像 gpt-oss-safeguard 這樣的安全分類器可以檢測有害內容,但它們依賴於對該內容的清晰定義。在實踐中,開發者面臨的最大挑戰之一是定義能夠準確捕捉青少年特定風險、並能一致應用於實際系統的政策。即使是經驗豐富的團隊,也往往難以將高層次的安全目標轉化為精確的操作規則,特別是因為這需要同時具備領域專業知識和深厚的 AI 知識。這可能導致保護漏洞、執行不一致或過度過濾。清晰且範圍明確的政策是有效安全系統的關鍵基礎。

幫助開發者落實青少年安全

為了應對這一挑戰,我們發布了一套安全政策⁠(在新視窗中開啟),這些政策針對青少年面臨的常見風險量身定制,並參考了對青少年獨特發展差異的現有研究。這些政策以提示詞的形式組織,可直接與 gpt-oss-safeguard⁠(在新視窗中開啟)及其他推理模型配合使用,使開發者能夠更輕鬆地在其系統中應用一致的安全標準。

初始版本包含的政策涵蓋:

這些政策可用於即時內容過濾,以及對用戶生成內容的離線分析。

透過將政策結構化為提示詞,開發者可以更輕鬆地將其整合到現有工作流程中,根據其使用案例進行調整,並隨著時間推移進行迭代。

圖表描繪了青少年安全政策類別和與青少年相關的內容輸入到 GPT-OSS safeguard 系統中,該系統根據內部推理產生政策決策。

與外部專家共同開發

我們與包括 Common Sense Media⁠(在新視窗中開啟)和 everyone.ai⁠(在新視窗中開啟)在內的外部組織合作,為這些政策的開發提供參考。他們的專業知識幫助塑造了涵蓋的內容範圍,強化了提示詞的結構,並完善了評估時需考慮的邊緣案例。

這項工作反映了我們與專家及更廣泛的生態系統持續合作的努力,旨在改進 AI 系統支持年輕人的方式。

「青少年 AI 安全領域最大的缺口之一,就是缺乏開發者可以據此構建的清晰、可操作的政策。很多時候,開發者都是從零開始。這些基於提示詞的政策有助於在整個生態系統中建立一個有意義的安全底線,且由於它們是以開源形式發布的,因此可以隨著時間推移進行調整和改進。我們很高興看到這類基礎設施被廣泛提供,希望它能催生更多行業共享的青少年安全起點。」

——Robbie Torney,Common Sense Media AI 與數位評估主管

「像這樣讓青少年安全政策更具操作性的努力非常有價值,因為它們有助於將專家知識轉化為可用於實際系統的指導。內容政策是重要的第一步,它們也為更廣泛的工作開啟了大門,即研究模型行為如何隨著時間推移塑造與青少年相關的風險。受此工作及我們自身研究的啟發,everyone.ai⁠(在新視窗中開啟)也建立了一個初始行為政策,重點關注排他性和過度依賴等風險。」

——Mathilde Cerioli 博士,everyone.AI 首席科學家

一個起點,而非完整的解決方案

這些政策旨在作為一個起點,而非對青少年安全的全面或最終定義或保證。每個應用程式都有獨特的風險、受眾和背景,開發者最適合了解其產品和 AI 整合可能帶來的風險。我們強烈建議開發者根據其特定需求調整和擴展這些政策,並將其與其他安全措施相結合,例如產品設計決策、用戶控制、適合青少年的透明度、監控系統以及深思熟慮且適齡的回應。

我們相信,分層的深度防禦⁠⁠方法對於構建更安全的 AI 系統至關重要。這些政策借鑒了我們的內部經驗,但並不反映 OpenAI 內部政策或安全措施的全貌。

前行之路

我們正透過 ROOST 模型社群⁠(在新視窗中開啟)以開源形式發布這些政策,以鼓勵協作與迭代。如欲貢獻、提供回饋或分享額外的青少年安全政策,請訪問 RMC GitHub 儲存庫。⁠(在新視窗中開啟)

開發者和組織可以根據其特定應用調整這些政策,將其翻譯成不同語言,並擴展以涵蓋額外的風險領域。隨著時間推移,我們希望這能為在 AI 系統中實施安全政策貢獻一個更強大且共享的基礎。

要開始使用 gpt-oss-safeguard,請從 Hugging Face⁠(在新視窗中開啟)下載。

延伸閱讀

負責任地發布 Sora 藝術卡 1 x 1

安全 | 2026 年 3 月 23 日

OAI 監控內部部署以防失控風險 藝術卡 1x1

安全 | 2026 年 3 月 19 日

日本青少年安全藍圖 > 藝術卡

安全 | 2026 年 3 月 17 日

https://openai.com/index/teen-safety-policies-gpt-oss-safeguard