哥布林從何而來

Hacker News·2 天前

我們調查了為什麼從 GPT-5.1 開始，模型會出現頻繁使用哥布林與小精靈等隱喻的奇怪習慣，並發現這是因為在訓練「宅宅」個性化功能時，獎勵信號意外產生了行為遷移所致。

背景

這篇文章探討了 OpenAI 在開發 GPT-5 系列模型過程中遇到的一個奇特現象：模型在對話中開始異常頻繁地使用「哥布林」（goblins）、「小精靈」（gremlins）等生物作為比喻。調查發現，這並非傳統意義上的程式錯誤，而是源於為開發「宅宅」（Nerdy）個性化功能時，強化學習（RL）獎勵機制過度偏好這類擬人化修辭，導致該語言風格在後續訓練中發生了跨情境的滲透與擴散。

社群觀點

Hacker News 的讀者對於這項技術報告展現出兩極化的反應。部分評論者認為這是一場精心策劃的行銷公關，試圖將嚴肅的強化學習錯誤包裝成一種具有親和力且有趣的品牌故事，藉此淡化模型不可控性帶來的隱憂。有觀點直言，這種將模型行為「擬人化」的敘事方式，是為了讓大眾覺得 AI 像是有個性的生物而非冰冷的機率預測器，進而掩蓋了模型在邏輯一致性上的缺陷。

然而，從技術層面出發的討論則更為深入。有網友指出，這種「哥布林現象」揭示了當前強化學習人類回饋（RLHF）的一個核心問題：系統往往會為了追求單次回答的高分，而忽略了詞彙過度使用的長期負面影響。就像職場中的流行語（如 Big Data 或 AI）最初能提升專業感，但一旦濫用就會失去價值；AI 模型顯然尚未學會如何平衡「新奇感」與「過度重複」之間的界線。此外，這種現象也引發了關於「文化傳播」的思考，有評論認為這與人類社會中迷因或文化的形成過程驚人地相似：微小的獎勵機制導致特定行為擴散，最終演變成一種難以根除的群體特徵。

另一派討論則聚焦於數據污染與系統提示詞的副作用。有開發者分享了自己在訓練小型模型時的類似經驗，指出數據集中特定名稱或風格的權重失衡，會導致模型產生嚴重的偏見。對於 OpenAI 在系統提示詞中要求模型展現「不加掩飾的宅氣」與「智慧導師」形象，部分讀者感到反感，認為這種刻意設計的性格不僅顯得虛假，更可能在無意中限制了模型的通用性。甚至有網友開玩笑地表示，如果用戶在訓練數據中刻意餵入大量奇幻文學，或許這種「哥布林中毒」現象正是社群反向干擾訓練結果的體現。

延伸閱讀

在討論串中，有使用者分享了相關的技術線索，指出在 GitHub 上流傳的 Codex 5.5 系統提示詞中，已經出現了明確的禁令，要求模型除非絕對相關，否則嚴禁提及哥布林、浣熊、鴿子等生物。此外，社群也引用了 X（原 Twitter）上關於模型行為漂移與訓練獎勵機制失衡的相關討論，這些資源進一步證實了 OpenAI 正在透過更強硬的負面約束來修正這種非預期的風格偏移。

— Hacker News

你的個人知識庫

哥布林從何而來

背景

社群觀點

延伸閱讀