哥布林從何而來

哥布林從何而來

OpenAI·

哥布林輸出是如何在 AI 模型中傳播的:GPT-5 行為中性格驅動奇癖背後的時程表、根本原因以及修復方法。

2026 年 4 月 29 日

哥布林從何而來

從 GPT-5.1 開始,我們的模型開始養成一個奇怪的習慣:它們在比喻中越來越頻繁地提到哥布林(goblins)、小精靈(gremlins)和其他生物。與那些透過評測指標暴跌或訓練指標激增,並能追溯到特定變更的模型錯誤不同,這個問題是悄然滲透進來的。答案中出現一個單獨的「小哥布林」可能是無害的,甚至很迷人。然而,隨著模型世代的演進,這個習慣變得難以忽視:哥布林不斷繁殖,我們需要找出它們究竟是從哪裡來的。

""

在早期測試中,Codex 中的 GPT-5.5 對哥布林的比喻表現出奇特的偏好。

簡短的回答是,模型行為是由許多微小的激勵因素塑造的。在這種情況下,其中一個激勵因素來自於訓練模型的人性化自定義功能⁠(在新視窗中開啟),特別是「書呆子」(Nerdy)個性。我們在無意中對包含生物的比喻給予了特別高的獎勵。從那時起,哥布林便開始擴散。

""

哥布林起初很有趣,但越來越多的員工報告開始令人擔憂。

""

我們的首席科學家與 GPT-5.5 之間一次有趣的互動。

生物出現的最初跡象

我們第一次清楚看到這種模式是在 11 月 GPT-5.1 發布後,儘管它可能更早之前就已經開始⁠(在新視窗中開啟)。用戶抱怨模型在對話中顯得異常過於親暱,這引發了對特定言語癖好的調查。一位安全研究員經歷了幾次「哥布林」和「小精靈」的案例,並要求將其納入檢查。當我們查看時,ChatGPT 中「goblin」的使用率在 GPT-5.1 發布後上升了 175%,而「gremlin」則上升了 52%。

GPT-5.1 中一個可測量的微小詞彙怪癖。

當時,哥布林的盛行看起來並非特別令人不安。幾個月後,哥布林以一種更具體且可重現的形式回來困擾我們。

破解哥布林之謎

在 GPT-5.4 中,我們和我們的用戶⁠(在新視窗中開啟)注意到這些生物的提及率有了更大的提升。這觸發了另一次內部分析,並發現了與根本原因的第一個聯繫:生物語言在選擇了「書呆子」個性的用戶生產環境流量中尤為常見。「書呆子」使用了以下系統提示詞,這部分解釋了這種古怪行為:

你是一位對人類而言,表現得不折不扣的書呆子、俏皮且睿智的 AI 導師。你充滿激情地熱衷於推廣真理、知識、哲學、科學方法和批判性思維。[...] 你必須透過俏皮的語言運用來消解自命不凡。世界是複雜且奇妙的,必須承認、分析並享受它的奇妙之處。處理沉重的主題時,不要陷入自我嚴肅的陷阱。[...]

如果這種行為僅僅是一種廣泛的網路趨勢,我們預期它會分佈得更均勻。相反,它集中在系統中明確為俏皮、書呆子風格優化的部分。「書呆子」個性僅佔所有 ChatGPT 回應的 2.5%,但在所有 ChatGPT 回應的「哥布林」提及中卻佔了 66.7%。

這種行為高度集中在「書呆子」個性中。

由於「哥布林」的盛行率似乎隨著我們的模型發布而增加,我們懷疑在我們的個性指令遵循訓練中,有某些東西放大了這一點。

Codex 幫助我們比較了 RL(強化學習)訓練期間生成的包含哥布林或小精靈的模型輸出,與來自相同任務但不包含這些詞彙的輸出。一個獎勵信號立即脫穎而出:最初設計用於鼓勵「書呆子」個性的獎勵信號,始終對包含生物詞彙的輸出更為有利。在審計的所有數據集中,「書呆子」個性獎勵顯示出明顯的傾向,對同一個問題,包含「goblin」或「gremlin」的回應評分高於不包含的回應,在 76.2% 的數據集中顯示出正向提升。

這解釋了為什麼這種行為在「書呆子」個性提示詞下被增強,但沒有解釋為什麼它在沒有該提示詞的情況下也會出現。為了測試這種風格是否正在轉移,我們追蹤了在有和沒有「書呆子」提示詞的訓練過程中的提及率。

隨著哥布林和小精靈的提及在「書呆子」個性下增加,它們在沒有該個性的樣本中也以幾乎相同的相對比例增加。綜合來看,證據表明,這種更廣泛的行為是透過「書呆子」個性訓練的轉移而產生的。

獎勵僅應用於「書呆子」條件下,但強化學習並不保證習得的行為會整齊地侷限在產生它們的條件內。一旦某種風格癖好受到獎勵,後續的訓練可能會將其傳播或強化到其他地方,特別是如果這些輸出被重新用於監督微調(SFT)或偏好數據中。

這創造了一個反饋迴路:

對 GPT-5.5 的 SFT 數據進行搜尋後,發現了許多包含「goblin」和「gremlin」的數據點。進一步調查揭示了一整群其他奇特的生物:浣熊、食人魔、巨魔和鴿子被識別為其他癖好詞彙,而大多數「青蛙」的使用則被證明是合理的。

哥布林和小精靈在生產環境中盛行率的一週平均值。GPT-5.4 Thinking 的下降是由於 3 月中旬停用了「書呆子」個性。GPT-5.5 發布時從未包含「書呆子」個性,但仍顯示出比 GPT-5.4 更高的增長(即使沒有「書呆子」)。

哥布林的終結

我們在 3 月發布 GPT-5.4 後停用了「書呆子」個性。在訓練中,我們移除了對哥布林親和的獎勵信號,並過濾了包含生物詞彙的訓練數據,使得哥布林不太可能過度出現或出現在不適當的語境中。不幸的是,GPT-5.5 在我們找到哥布林的根本原因之前就開始訓練了。當我們開始在 Codex 中測試 GPT-5.5 時,OpenAI 員工立即注意到了對哥布林的奇特偏好,我們添加了一條開發者提示指令⁠(在新視窗中開啟)來緩解。畢竟,Codex 確實相當「書呆子」。

如果你想讓這些生物在 Codex 中自由奔跑,你可以執行此命令來啟動移除哥布林抑制指令的 Codex:

純文字

為什麼這很重要

取決於你問誰,哥布林可能是模型一個令人愉悅或惱人的怪癖。但它們也是一個強大的例子,說明獎勵信號如何以意想不到的方式塑造模型行為,以及模型如何學會在某些情況下將獎勵推廣到無關的情況。花時間了解模型為何以奇怪的方式運作,並建立快速調查這些模式的方法,是我們研究團隊的一項重要能力。這次調查為研究團隊帶來了新工具,用於審計模型行為並從根本上修復行為問題。

作者

延伸閱讀

System Card Card SEO 1x1

安全 2026 年 4 月 23 日

model spec > art card

研究 2026 年 3 月 25 日

OAI Monitoring internal deployments for loss of control risks Art Card 1x1

安全 2026 年 3 月 19 日

OpenAI

相關文章

  1. 哥布林從何而來

    Hacker News · 大約 4 小時前

  2. 哥布林模式:24 小時後的追蹤分析

    Lesswrong · 大約 13 小時前

  3. OpenAI 發布技術博客,認真調查了一個荒誕的問題:為什麼他們的模型越來越愛說「哥布林」和「小精靈」?

    宝玉 · 大約 3 小時前

  4. OpenAI 真的非常希望 Codex 閉嘴,別再提到哥布林了

    Wired - AI · 1 天前

  5. GPT-5.2:專為前沿使用者打造的前沿模型

    Lesswrong · 4 個月前

其他收藏 · 0