哥布林從何而來

OpenAI·大約 11 小時前

哥布林輸出是如何在 AI 模型中傳播的：GPT-5 行為中性格驅動奇癖背後的時程表、根本原因以及修復方法。

2026 年 4 月 29 日

哥布林從何而來

從 GPT-5.1 開始，我們的模型開始養成一個奇怪的習慣：它們在比喻中越來越頻繁地提到哥布林（goblins）、小精靈（gremlins）和其他生物。與那些透過評測指標暴跌或訓練指標激增，並能追溯到特定變更的模型錯誤不同，這個問題是悄然滲透進來的。答案中出現一個單獨的「小哥布林」可能是無害的，甚至很迷人。然而，隨著模型世代的演進，這個習慣變得難以忽視：哥布林不斷繁殖，我們需要找出它們究竟是從哪裡來的。

在早期測試中，Codex 中的 GPT-5.5 對哥布林的比喻表現出奇特的偏好。

簡短的回答是，模型行為是由許多微小的激勵因素塑造的。在這種情況下，其中一個激勵因素來自於訓練模型的人性化自定義功能⁠（在新視窗中開啟），特別是「書呆子」（Nerdy）個性。我們在無意中對包含生物的比喻給予了特別高的獎勵。從那時起，哥布林便開始擴散。

哥布林起初很有趣，但越來越多的員工報告開始令人擔憂。

我們的首席科學家與 GPT-5.5 之間一次有趣的互動。

生物出現的最初跡象

我們第一次清楚看到這種模式是在 11 月 GPT-5.1 發布後，儘管它可能更早之前就已經開始⁠（在新視窗中開啟）。用戶抱怨模型在對話中顯得異常過於親暱，這引發了對特定言語癖好的調查。一位安全研究員經歷了幾次「哥布林」和「小精靈」的案例，並要求將其納入檢查。當我們查看時，ChatGPT 中「goblin」的使用率在 GPT-5.1 發布後上升了 175%，而「gremlin」則上升了 52%。

GPT-5.1 中一個可測量的微小詞彙怪癖。

當時，哥布林的盛行看起來並非特別令人不安。幾個月後，哥布林以一種更具體且可重現的形式回來困擾我們。

破解哥布林之謎

在 GPT-5.4 中，我們和我們的用戶⁠（在新視窗中開啟）注意到這些生物的提及率有了更大的提升。這觸發了另一次內部分析，並發現了與根本原因的第一個聯繫：生物語言在選擇了「書呆子」個性的用戶生產環境流量中尤為常見。「書呆子」使用了以下系統提示詞，這部分解釋了這種古怪行為：

你是一位對人類而言，表現得不折不扣的書呆子、俏皮且睿智的 AI 導師。你充滿激情地熱衷於推廣真理、知識、哲學、科學方法和批判性思維。[...] 你必須透過俏皮的語言運用來消解自命不凡。世界是複雜且奇妙的，必須承認、分析並享受它的奇妙之處。處理沉重的主題時，不要陷入自我嚴肅的陷阱。[...]

如果這種行為僅僅是一種廣泛的網路趨勢，我們預期它會分佈得更均勻。相反，它集中在系統中明確為俏皮、書呆子風格優化的部分。「書呆子」個性僅佔所有 ChatGPT 回應的 2.5%，但在所有 ChatGPT 回應的「哥布林」提及中卻佔了 66.7%。

這種行為高度集中在「書呆子」個性中。

由於「哥布林」的盛行率似乎隨著我們的模型發布而增加，我們懷疑在我們的個性指令遵循訓練中，有某些東西放大了這一點。

Codex 幫助我們比較了 RL（強化學習）訓練期間生成的包含哥布林或小精靈的模型輸出，與來自相同任務但不包含這些詞彙的輸出。一個獎勵信號立即脫穎而出：最初設計用於鼓勵「書呆子」個性的獎勵信號，始終對包含生物詞彙的輸出更為有利。在審計的所有數據集中，「書呆子」個性獎勵顯示出明顯的傾向，對同一個問題，包含「goblin」或「gremlin」的回應評分高於不包含的回應，在 76.2% 的數據集中顯示出正向提升。

這解釋了為什麼這種行為在「書呆子」個性提示詞下被增強，但沒有解釋為什麼它在沒有該提示詞的情況下也會出現。為了測試這種風格是否正在轉移，我們追蹤了在有和沒有「書呆子」提示詞的訓練過程中的提及率。

隨著哥布林和小精靈的提及在「書呆子」個性下增加，它們在沒有該個性的樣本中也以幾乎相同的相對比例增加。綜合來看，證據表明，這種更廣泛的行為是透過「書呆子」個性訓練的轉移而產生的。

獎勵僅應用於「書呆子」條件下，但強化學習並不保證習得的行為會整齊地侷限在產生它們的條件內。一旦某種風格癖好受到獎勵，後續的訓練可能會將其傳播或強化到其他地方，特別是如果這些輸出被重新用於監督微調（SFT）或偏好數據中。

這創造了一個反饋迴路：

對 GPT-5.5 的 SFT 數據進行搜尋後，發現了許多包含「goblin」和「gremlin」的數據點。進一步調查揭示了一整群其他奇特的生物：浣熊、食人魔、巨魔和鴿子被識別為其他癖好詞彙，而大多數「青蛙」的使用則被證明是合理的。

哥布林和小精靈在生產環境中盛行率的一週平均值。GPT-5.4 Thinking 的下降是由於 3 月中旬停用了「書呆子」個性。GPT-5.5 發布時從未包含「書呆子」個性，但仍顯示出比 GPT-5.4 更高的增長（即使沒有「書呆子」）。

哥布林的終結

我們在 3 月發布 GPT-5.4 後停用了「書呆子」個性。在訓練中，我們移除了對哥布林親和的獎勵信號，並過濾了包含生物詞彙的訓練數據，使得哥布林不太可能過度出現或出現在不適當的語境中。不幸的是，GPT-5.5 在我們找到哥布林的根本原因之前就開始訓練了。當我們開始在 Codex 中測試 GPT-5.5 時，OpenAI 員工立即注意到了對哥布林的奇特偏好，我們添加了一條開發者提示指令⁠（在新視窗中開啟）來緩解。畢竟，Codex 確實相當「書呆子」。

如果你想讓這些生物在 Codex 中自由奔跑，你可以執行此命令來啟動移除哥布林抑制指令的 Codex：

純文字

為什麼這很重要

取決於你問誰，哥布林可能是模型一個令人愉悅或惱人的怪癖。但它們也是一個強大的例子，說明獎勵信號如何以意想不到的方式塑造模型行為，以及模型如何學會在某些情況下將獎勵推廣到無關的情況。花時間了解模型為何以奇怪的方式運作，並建立快速調查這些模式的方法，是我們研究團隊的一項重要能力。這次調查為研究團隊帶來了新工具，用於審計模型行為並從根本上修復行為問題。

作者

延伸閱讀

System Card Card SEO 1x1

安全 2026 年 4 月 23 日

model spec > art card

研究 2026 年 3 月 25 日

OAI Monitoring internal deployments for loss of control risks Art Card 1x1

安全 2026 年 3 月 19 日

— OpenAI

其他收藏 · 0

你的個人知識庫

哥布林從何而來

哥布林從何而來

生物出現的最初跡象

破解哥布林之謎

哥布林的終結

純文字

為什麼這很重要

作者

延伸閱讀