語言模型的拒絕行為是由單一方向介導的

Hacker News·1 天前

這項研究發現大型語言模型中的拒絕機制是由模型內部表示中的特定向量方向所控制。透過操縱這個單一方向，研究人員可以在各種提示詞中繞過或誘發拒絕行為。

背景

這篇研究探討了大型語言模型（LLM）拒絕執行特定指令的機制，指出這種拒絕行為往往是由模型內部的一個單一方向向量所主導。透過識別並移除這個特定的「拒絕方向」，研究人員發現可以有效地消除模型的審查機制，這種技術後來被社群稱為「消融」（Abliteration）。

社群觀點

在 Hacker News 的討論中，社群對於這項技術的現狀與未來展開了激烈的辯論。部分技術評論者認為，這篇研究雖然奠定了基礎，但在快速演進的 AI 領域中已顯得有些過時。有觀點指出，最新的模型訓練已經開始針對這種單一向量的消融技術進行防禦，透過將拒絕編碼分散到多個維度中，試圖讓審查機制變得更難以被簡單地移除。這種發展被視為一場貓鼠遊戲，開發者不斷強化防禦，而開源社群則持續尋找新的破解路徑。

針對開源模型，社群普遍認為審查移除已經成為一個「已解決」的問題。許多討論者提到，每當有新的權重開放模型發布，幾天內就會出現移除審查的版本。然而，這種消融技術並非完美，有使用者反映，經過處理的模型在移除拒絕機制的同時，往往也會損害模型的原始能力，導致輸出品質下降或在處理敏感請求時產生無意義的內容。此外，對於像 Qwen 或 DeepSeek 這種來自中國的模型，社群成員驚訝地發現它們在經過消融處理後，竟然能提供關於天安門事件等敏感議題的非官方觀點，這引發了關於訓練數據來源以及開發者是否刻意保留某些數據以維持模型性能的猜測。

另一派觀點則聚焦於更簡單的「越獄」手段。有留言指出，即便不使用複雜的向量消融技術，僅透過修改對話歷史中的助理回覆（Assistant Response），或是稍微調整措辭，就能輕易繞過大多數尖端模型的審查。這種現象反映出目前的審查機制往往只是表面上的限制。對於許多使用者而言，模型的拒絕行為有時顯得莫名其妙且具有攻擊性，甚至會對正常的研究請求表現出敵意。最終，社群達成了一種共識：目前的審查機制更多是為了法律合規與企業形象，而非真正能有效阻止不當使用，因為技術社群總能找到方法重新獲得模型的完整能力。

你的個人知識庫

語言模型的拒絕行為是由單一方向介導的

背景

社群觀點

延伸閱讀