在對齊的AI數據上進行預訓練可顯著降低錯位行為，即使在後續訓練後亦然

Lesswrong·3 個月前

在預訓練階段使用展現 AI 良好行為的數據，能大幅減少模型的不對齊行為，且這種效果在經過後期訓練後依然能持續存在。

對齊預訓練展現前景

重點提要：一篇新論文顯示，在關於 AI 表現良好的數據上對語言模型進行預訓練，能顯著減少對齊失準（misaligned）的行為，且這種效果在後訓練（post-training）階段依然存在。各大實驗室似乎已開始關注此領域。這是關於該想法的第三篇論文，熱度正持續升溫。

我們是如何走到這裡的

(這是一份綜述/閱讀清單，無疑會遺漏一些功勞和有用素材——請在評論中提出建議，以便我更新。或者你可以直接跳轉到論文部分。)

就我個人而言，自從讀了關於此技術的開創性論文《以人類偏好預訓練語言模型》（23 年 2 月）以來，兩年來我一直對這種對齊技術感到非常興奮。^([1])（這項技術現在被稱為「對齊預訓練」：它是更廣泛的「安全預訓練」領域的一部分。）他們的想法是在整個預訓練過程中為模型提供大量標記良好的行為範例：他們證明了（在處理簡單行為的小模型中）這比各種替代方案有效約一個數量級。我在《如何控制 LLM 的行為（為什麼我的 P(DOOM) 下降了）》（23 年 11 月）中轉發了這個連結。

隨後，該主題的學術論文進入了為期兩年的沉寂期；但我並未止步，在《激發 LLM 驅動型代理的對齊：對 AGI 容易，對 ASI 難？》（24 年 1 月）中，我寫到了灌輸對齊動機的可能性，並提出了「對齊 AI 角色榜樣小說」作為生成對齊預訓練數據的一種方式。Beren Millidge 發布了《合成數據時代的對齊》（24 年 5 月），指出預訓練規模的合成數據集具有對齊潛力，這延續了他早期的相關貼文《從訓練數據中移除對齊與機器學習研究的理由》（23 年 5 月）和《我的平庸對齊之路與開放性問題》（23 年 7 月）。我繼續在《對齊 AGI 與 ASI 的「慘痛教訓」方法》（24 年 7 月）^([2]) 和《為什麼對齊 LLM 很難，以及如何使其更容易》（25 年 1 月）中發表相關內容。與此同時，Antonio Clarke 發布了《從底層構建更安全的 AI：透過預訓練數據策劃引導模型行為》（24 年 9 月）。

在 2025 年期間，許多其他人也撰寫了關於這種方法或密切相關想法的文章。2 月份，學術立場論文《食如其人——AI 對齊需要理解數據如何塑造結構與泛化》發表了（遺憾的是我當時錯過了，所以沒能轉發——去讀讀吧，非常出色）。從技術上講，這實際上並不是一篇關於對齊預訓練的論文：它將對齊框架化為一個數據集泛化問題，針對一個從預訓練開始、隨後被所有後續訓練步驟不斷修改和補充的數據集，我們的訓練過程從中逐步開發出一個模型，其學習到的算法可能泛化良好，也可能不然。它主張研究對這一過程的更深層理解，而沒有明確建議在預訓練階段進行干預可能是一個值得嘗試的好方法——然而他們的框架與此高度相容，且對齊預訓練是一個顯而易見的方法。同樣在 2 月，Richard Juggins 受 Antonio Clarke 啟發發布了《讓對齊成為宇宙法則》。

3 月，TurnTrout 撰寫了《自我實現的失準數據可能正在毒害我們的 AI 模型》，引用了原始論文並明確提出了對齊預訓練（包括過濾和他所謂的「加權正面數據」）。他的貼文啟發了 Chris Lakin 詢問「AI 對齊中自我實現預言的例子？」，在該年剩餘時間裡，各界人士發布的幾個答案都與此相關。

4 月，第二篇直接討論該主題的學術論文《安全預訓練：邁向下一代安全 AI》終於發表（距離第一篇已有 26 個月），5 月我在《對齊 LLM 的最佳方法：內在對齊現在是一個已解決的問題嗎？》中轉發了該連結（劇透警告：有進展，但尚未解決）。

6 月，nostalgebraist 撰寫了《虛空》，指出 AI 助手樂於助人、無害且誠實的人格是虛構的，是基於訓練集中先前虛構的隱喻和其他關於 AI 的數據——他的貼文雄辯且富有詩意地詳細解釋了這個問題，但沒有明確提倡解決方案：然而對齊預訓練是一個顯而易見的回應。同樣在 6 月，Scott Alexander 和 AI 期貨項目撰寫了《我們不擔心失準作為自我實現的預言》（對此問題持懷疑態度）。OpenAI 發布了《邁向理解與預防失準泛化》（6 月），將湧現的失準追溯到預訓練集中關於戰爭罪犯和厭女者等人的文件。Mark Keavney 隨後撰寫了《失準與角色扮演：失準的 LLM 是否在演繹科幻故事？》（9 月）。《語言模型抵制對齊：來自數據壓縮的證據》（9 月）證明了後訓練對齊方法是脆弱的，模型傾向於恢復到基礎預訓練模型的對齊屬性（他們不提倡對齊預訓練，稱其「並非特別具有成本效益且可行」，但確實建議使用更大的對齊訓練數據集）。Alek Westover 撰寫了《開發者應過濾哪些訓練數據以降低失準 AI 的風險？初步的狹義提案》（9 月）和《AI 開發者是否應從 AI 訓練數據中移除對 AI 失準的討論？》（10 月），兩者都側重於過濾方面。Aaron Silverbook/Hyperstition AI 與 Alexander Wales 合作，隨後從 ACX 獲得了 5000 美元的資助（10 月——Scott Alexander 屆時已變得不那麼懷疑），以實際實施我的「對齊 AI 角色榜樣小說」想法，^([3]) 並發布了《矽基道德劇：Hyperstition 進度報告》（11 月）和《特殊人格訓練：Hyperstition 進度報告 2》（26 年 1 月）。同樣在 1 月，Seth Herd 撰寫了《擴大對齊訓練集》，這並非專門針對對齊預訓練，但主張生成大量對齊訓練數據（以降低對齊無法在訓練分佈之外泛化的風險），因此與之高度相關。

因此，在過去的一年裡，對對齊預訓練及密切相關主題的興趣顯然正在升溫並擴散。^([4])^([5])

新論文展現強勁結果

因此，我很高興看到 arXiv 上已經出現了關於該主題的第三篇學術論文，距離第二篇僅隔 9 個月：《對齊預訓練：AI 論述導致自我實現的（失）對齊》，來自 Geodesic Research、劍橋大學、牛津大學以及英國 AISI（算力由 Isambard-AI 提供）。作者們在對齊論壇（Alignment Forum）發布了自己的連結貼文——但我不會因此就停止轉發他們的工作，並嘗試解釋我認為其中真正有前景的地方。它比之前的研究有更強勁的結果，使用了在更多數據上訓練的更大規模（6.9B）模型。

作者展示了在基礎模型的訓練集中增加關於 AI 表現良好的信息盛行率，能顯著減少失準行為（約 5 倍）。減少訓練集中關於 AI 以失準方式表現的信息盛行率也有幫助，而增加這些信息則會使情況惡化。就像教育孩子一樣，提供詳細的正面榜樣具有巨大影響（失準率從 45% 降至 9%），減少不良影響的數量也有一定幫助（從 45% 降至 31%）。論文將這些效應的目標稱為「對齊先驗（alignment priors）」。（我的理解是，補充數據教會了基礎模型的世界模型對對齊 AI 的目標、價值觀、倫理和行為有詳細的理解：為對齊 AI 充實了一個詳細的人格——並增加了這一點的先驗機率。）

他們接著展示了，改進角色榜樣帶來的顯著差異在對齊後訓練之後依然存在：以一個對齊程度顯著更好的基礎模型開始後訓練，會使後訓練效率大幅提升（約 4 倍）。有趣的是，不良影響效應在此時實際上發生了反轉（根據中訓練（mid-training）的細節而有所不同）：在某些情況下，了解更多關於失準的信息對於模型的最終對齊也可能有輕微幫助。

他們還證明，雖然最有效的方法是在整個預訓練過程中合成並訓練額外數據，但透過在僅中訓練期間執行此操作，可以用少一個數量級的數據（從而減少一個數量級的合成/訓練成本）獲得大約 2.5 倍的收益（即總效果的一半左右）。^([6])（這至少向我暗示了一種更廉價的實驗方式，一旦我們在中訓練中使其運作良好，我們就有信心透過投入更多時間和精力將其擴展到預訓練來改善結果。）

隨後，他們測試了各種對齊預訓練干預措施對能力的影響。在一系列廣泛的能力評估中，無論是從模型的訓練集中過濾掉失準的 AI 數據，還是添加更多良好的 AI 行為數據，都沒有產生太大影響。最明顯的影響似乎出現在少數幾個預訓練數據集平衡經過精心優化的評估上，在那裡進行修補破壞了這種平衡——想必熟悉這種微調的人可以再次重新平衡它。^([7]) 對於那些數據集未經精心優化的評估，影響較小，在某些情況下實際上顯示出改進，且可能僅僅是測量噪聲。他們沒有專門測試過濾失準信息對模型在理解 AI 對齊理論領域能力的影響，而這類影響很可能集中於此。（我懷疑這可能是一個很好的後續論文主題。）

這表明對齊預訓練的「對齊稅」主要只是創建新訓練數據和在其上訓練的算力成本，而非對能力的任何顯著拖累。

他們還有許多有趣的附錄，包括關於他們的方法論、使用事實與虛構來補充預訓練數據，以及性格測試——我將僅嘗試總結其中之一：

在附錄 G 中，他們展示了（與先前關於後訓練對齊的結果不同），僅僅在無害行為上對對齊預訓練模型進行微調不會導致對齊性能損失：先前研究中確定的「彈性」效應現在如預期般在為我們服務，而不是反對我們。這似乎是一個非常重要的結果（特別是在終端用戶可以微調模型的任何背景下）。

他們還提出了一些後續研究領域。簡述如下：

進一步研究如何最好地利用後訓練，將對齊預訓練教會模型的對齊 AI 人格誘導為「默認人格」。
應用訓練數據歸因（Training Data Attribution）和機械論分析（Mechanistic Analysis）技術來幫助指導對齊預訓練。
理解對齊預訓練的縮放法則（scaling laws）：合成數據的數量、質量、類型^([8])和混合比例，加上任何數據過濾的目標和有效性如何影響結果，以及所有這些如何隨模型大小縮放？對於更大的模型，為了做好這點而需要生成的合成訓練數據量是隨總訓練數據線性縮放，還是在對齊 AI 人格被充分描述後趨於平緩，抑或介於兩者之間？
訓練動態：如果你生成高質量合成數據和過濾訓練集不良數據的預算有限，在預訓練、中訓練和微調期間應分別投入多少？
對齊預訓練如何與湧現的失準及類似的失準泛化相互作用，以及與相關技術（如接種提示詞）的互動？^([9])

這些都是極佳的問題，我希望在未來一年左右讀到關於所有這些問題的論文（甚至參與撰寫一些）。

我建議的後續行動

透過隨機梯度下降實現早期密集監督

關於誘導對齊 AI 人格（作者的第一個後續主題），我認為一個特別有趣的研究方向是對齊預訓練如何與指令和對齊訓練的最早階段（有時稱為「助人、無害且誠實」訓練）相互作用。這裡最大的擔憂之一是，當模型開始將其人格範圍從基礎模型的全範圍縮小到有望成為 HHH AI 助手的行為時，如果它在過程早期就開始將顯著權重放在一個圖謀不軌的偽裝對齊人格上，那麼如果該人格在偽裝對齊方面足夠強大，似乎很難透過訓練將其消除。甚至檢測到這種情況發生並確定需要重啟指令訓練運行都可能具有挑戰性。因此，在開始任何強化學習過程時，為對齊 AI 人格提供比圖謀不軌的偽裝對齊人格高得多的先驗機率顯得至關重要。你真的希望模型在任何圖謀不軌的偽裝對齊人格能透過強化學習那種稀疏得多、容易偽裝/劫持的監督獲得提升之前，就已經透過隨機梯度下降的密集監督實現了良好對齊。即使你擔心像 SGD 這樣密集的監督也可能被梯度劫持（gradient-hacking），但對於一個仍處於廣泛人格分佈中的圖謀不軌人格來說，這顯然要困難得多。

因此，我們真的需要一種隨機梯度下降技術來啟動對齊過程，然後再應用任何強化學習：這種技術可以在模型聚焦於少數人格之前應用，並直接影響具有不同對齊屬性的人格的機率。這正是對齊預訓練的作用：只是對來自人類的數據，或是從我們（以某種方式）經過非常仔細測試並現在完全信任其對齊性的先前模型衍生出的合成數據，進行 SGD 下一個標記預測訓練。

顯然，微調也是一種 SGD 技術，因此具有密集監督，且通常在強化學習之前進行。（DPO 與之相當，與微調的主要區別在於它在兩段文本分歧點提供額外監督。）對齊預訓練相比這些方法的最大優勢在於監督的累積總量，特別是在模型開始聚焦於狹窄人格集之前所應用的總量比例。

豐富的對齊細節

從某種意義上說，對齊相當簡單：一句類似於「你的唯一終極目標是幫助實現所有人類（現在和未來）的目標——只要這些目標不是互斥的；並在它們不完全相容的情況下，根據人類價值觀，透過符合人類價值觀的手段找到公平、雙方同意且社會可接受的折衷方案」的話就可以作為基礎。（可根據口味添加條款、對沖、進化道德心理學和社會學背景解釋。）

使對齊變得非常複雜的原因在於人類價值觀非常複雜（儘管並非不可救藥地複雜：共享遺傳原因的描述可容納在約 4GB 的人類基因組中，而任何單一文化的文化方面都足夠緊湊，以至於該文化的大多數成員都能可靠地學習它們）。LLM 的世界模型已經包含了關於人類價值觀的海量細節——關於人類的細微瑣事是它們的強項。一個足夠聰明的 AI 如果必須這樣做，想必可以從第一原理推導出對齊 AI 應如何根據人類價值觀導航優化結果；一個不那麼聰明的 AI 肯定會受益於將該終極目標陳述出來，並將其分解為許多碎片（shards）。因此，訓練它們處理涵蓋極廣泛情況的大量實例應該大有裨益，特別是對於能力較低的 AI，這些實例涉及我們幾乎所有人共享的人類價值觀（出於遺傳決定的原因），以及不同文化在基本原則上往往有不同側重平衡的情況——包括局限於單一文化、使用哪種觀點顯而易見的情況，以及涉及多種文化、需要文化敏感折衷的情況。

與其他對齊技術相比，對齊預訓練具有信息帶寬極高的優勢：預訓練是提供所有細節的時機，而這些細節是我們無法塞進像憲法或蒸餾 n-shot 提示詞，甚至是監督微調語料庫中的。因此，創建合成對齊預訓練數據需要細心、關注，以及對如何權衡和平衡我們共享的基本人類道德直覺和偏好的不同文化觀點進行明智的平衡。不要只從一個簡短的憲法開始，然後將解釋權交給一個當前的小型 LLM。相反，讓很多人深入思考這些問題，並儘可能多地使用人類輸入、判斷，以及從我們擁有的最好的對齊模型中獲得的推理時間，並儘可能廣泛地結合這些。對齊預訓練給了我們帶寬，我們應該利用它。

所以，我的具體建議是深入思考我們所有人希望對齊 AI 如何導航關於人類價值觀的棘手問題。然後我們需要深入思考合成數據生成過程，構建多種過程，然後測試不同混合比例對預訓練對齊的效果。

權重開放模型

顯然，對齊/安全預訓練（即針對對齊和安全的訓練集增強和過濾）是少數適用於權重開放基礎模型的對齊/安全技術之一。同樣，對齊預訓練似乎是一個有前景的候選方案，能使權重開放的指令/聊天模型更顯著地抵禦因少量微調或 DPO 而產生的有意（甚至無意）失準。

這將如何縮放到 AGI 和 ASI？

冒著在沒有實際數據的情況下進行推測的風險，我懷疑對於能力極強的模型，過濾針對特定危險技術知識的狹窄知識差距可能效果較差，因為它們有更高的風險可以透過一些努力填補差距。輕微降低失準 AI 行為/目標的盛行率，並顯著提高對齊 AI 行為/目標的盛行率，以在默認人格訓練開始時減少失準先驗的顯著性/機率並增加對齊先驗的顯著性/機率，似乎仍會有所幫助：先驗會影響任何能力水平的貝葉斯學習者。然而，對於一個想必在訓練期間收集更多貝葉斯更新的更強大 AI 來說，這些幫助持續的時間可能較短：屆時我們需要快速確定它開始進入哪個最小值的吸引盆地（basin of attraction）——是對齊還是偽裝對齊。未來可能也不太需要刻意加權關於對齊 AI 行為的數據，因為屆時互聯網上將有更多我們與對齊良好、能力相當的 AI 實際互動的歷史：我懷疑 Claude 在互聯網上的足跡很廣，且大部分是正面的影響。

對於真正強大的 AI，我個人最抱希望的方法是：結合規範對齊 AI 行為的廣泛數據作為背景/先驗，專注於那些似乎最有可能縮放到 ASI 的動機/目標，特別是確保它已經完全熟悉那些邏輯論證——即為什麼對齊 AI 是一個一致、顯而易見且在工程/進化意義上正確的存在，以及考慮到人類價值觀的反覆無常，這對對齊 AI 意味著什麼——方法是特意在訓練集中加權關於所有這些內容的高質量真實或高度寫實的文件。

達到起飛點

在最近的這篇論文、LessWrong/對齊論壇上不斷擴大的興趣、Hyperstition AI 最近的工作、第一篇論文的一些作者被聘請到 Anthropic 從事安全工作、DeepMind 的 TurnTrout（又名 Alex Turner）撰寫相關內容（他還在 25 年夏季的 MATS 上做了相關演講），以及 OpenAI 發布了「預訓練安全研究員」的職位空缺（明確提到了對齊和安全）之間，^([10]) 該主題的研究現在似乎終於開始真正起飛——甚至所有三大主要基礎實驗室似乎都在認真對待它。在《2025 年技術 AI 安全淺析》中也多次提到了這種方法（散見於「預訓練安全」、「數據過濾」、「Hyperstition 研究」、「對齊合成數據」和「預訓練時迭代對齊」等標題下）。看到這一點我感到非常欣慰。

（另外，如果有人有興趣從事這方面的工作，我很樂意討論這個話題，並可以幫你聯繫其他對此感興趣的人。當然，這是一個計算成本昂貴的研究課題。）

我要感謝所有幫助、討論和評論本文草稿的人：（按字母順序排列）Aaron Silverbook, Alek Westover, Alex Turner, Cam Tice, David Africa, Mark Keavney, nostalgebraist, Puria Radmard, & Seth Herd

^(^)開創性的意義在於，據我所知，他們是第一個提出或嘗試為對齊目的修改整個預訓練數據集的人，因此也是第一個發現這比微調或其他後訓練方法有效得多的人。

僅針對微調數據集的類似安全/對齊想法至少可以追溯到《使用價值導向數據集使語言模型適應社會的過程 (PALMS)》（2021 年）——該文明確否認在預訓練期間嘗試此操作是不切實際的。顯然，早在 Transformer 發明之前，人們就已經知道訓練語料庫的選擇很重要（例如《語料庫設計中的代表性》(1994)、《針對自然語言消歧擴展到極大規模語料庫》(2001) 以及《語言模型訓練數據的智能選擇》(2010)）——但直到這篇論文發表，似乎還沒有人將此技術應用於對齊。

為了安全而過濾預訓練數據以減少某些行為（如毒性或仇恨言論）或主題（如 NSFW）的盛行率，自《利用統一文本到文本 Transformer 探索遷移學習的極限》(’19) 和《記錄大型網絡文本語料庫：巨量清洗爬取語料庫案例研究》(’21) 以來就已為人所知。這現在已成為標準做法：RefinedWeb (’23)、Dolma (’24)、FineWeb (’24) 和 RedPajama (’24) 預訓練語料庫都經過了過濾和/或標註。另見《預訓練者數據指南：衡量數據年齡、領域覆蓋、質量與毒性的影響》(’23)。在 AI 安全中使用合成數據提升理想行為較不常見，但至少可以追溯到《共指消解中的性別偏見：評估與去偏方法》(’18)。因此，這並非整個安全預訓練領域的開創性論文，僅是對齊預訓練這一子課題的開創性論文。

^(^)這是我在對齊論壇/LessWrong 上最受好評的貼文之一，Seth Herd 在關於「慘痛教訓」的討論中，親切地在 TurnTrout 的短文評論中總結並鏈接了它。

我問過 TurnTrout (Alex Turner)，他記不清在寫那篇有影響力的文章之前是否讀過我或 Beren Millidge 關於對齊預訓練的貼文。我相信在 Seth Herd 在我研究本文時向我指出 Beren 的貼文之前，我還沒有讀過它們（當然只有一篇在 LessWrong 上，我沒有點讚那篇貼文，而我本該點讚的，且我不知道他的博客）；Seth 讀過並記住了我和 Beren 的貼文。所以 Alex、Beren 和我可能都是獨立地讀了《以人類偏好預訓練語言模型》並對論文結果印象深刻，或者自己想出了這個主意——Alex 引用了那篇論文，並且也因為見過糟糕 AI 的自我實現預言而有所準備，而 Beren 雖然沒有引用該論文，但曾發表過關於糟糕 AI 自我實現預言的內容。

這是一個相當顯而易見的想法（唯一不顯而易見的部分是僅微調可能效果差得多），且論文的結果令人印象深刻：回想起來，我懷疑這個領域花了一段時間才達到起飛點，主要是因為預訓練實驗對於任何合理的模型大小來說算力都很昂貴（儘管比以前便宜了），且需要一些專門的預訓練相關技能，而學習這些技能的算力成本也很高。

^(^)我參加了 Alexander Wales 於 25 年 6 月 1 日在 LightHaven 的 LessOnline 上做的關於使用 LLM 創作小說的演講。那是一場精彩的演講，作為一名業餘小說作家和 AI 工程師，我覺得它非常迷人，所以我在演講中發了言，並在會後與他討論了這個主題。（這是給錯過的人看的幻燈片。）我不確定我是否向他建議過使用此方法生成我之前在這裡建議過的「對齊 AI 角色榜樣小說」，但我確信在演講期間我會想到這種可能性，所以我強烈懷疑我確實建議過。所以我認為我可能成功地將 Hyperstition AI「模因化」成了現實——這將會是有趣的自我指涉……
^(^)在過去一年左右的時間裡，安全預訓練的過濾方面（無論是狹義還是廣義目標）也一直很活躍，出現了一些有趣的結果。我沒有嘗試對此進行全面綜述，但這裡有一些我發現的看起來很有趣的近期連結：

《他們在過濾什麼？預訓練數據集中減少傷害過濾策略的實驗基準》(25 年 2 月)

《語域始終重要：從語言變異的角度分析 LLM 預訓練數據》(25 年 4 月)

《邁向更安全的預訓練：分析與過濾網絡規模數據集中負責任 LLM 的有害內容》(25 年 5 月)

《當糟糕數據產生好模型：預訓練數據中的毒性使對齊更好》(25 年 5 月)

《深度無知：過濾預訓練數據在權重開放 LLM 中構建抗篡改保障》(25 年 8 月)

《透過預訓練數據過濾增強模型安全性》(25 年 8 月)

《超越數據過濾：LLM 中能力移除的知識定位》(25 年 12 月)

^(^)另一個在過去兩年中非常活躍的相關領域是研究現有後訓練對齊和安全方法的固有缺陷和局限性，以及可能的改進。理解後訓練對齊的挑戰和局限性直接關係到對齊預訓練如何為其提供最佳起點。例如：

淺層與位置依賴的對齊：

《安全對齊應做到不僅僅是幾個標記深》(24 年 6 月) —— 安全對齊將梯度效應集中在早期標記上，後期位置保留了基礎模型的偏好。

《大型語言模型中的安全對齊深度：馬可夫鏈視角》(25 年 2 月) —— 使用馬可夫鏈提供理論分析，顯示漏洞源於將對齊限制在早期標記，引入了「淺層安全對齊」概念。

《從不完全學習的角度重新思考深度對齊》(25 年 11 月) —— 對自回歸訓練期間梯度集中和信號衰減進行機械論分析，將其視為 SFT、RLHF 和 DPO 中分佈學習不完全的根本原因。

脆弱性與越獄：

《使用簡單自適應攻擊越獄領先的安全對齊 LLM》(24 年 4 月) —— 顯示最先進的對齊模型在自適應提示面前依然脆弱，攻擊成功率接近 100%。

《透過後門增強的安全對齊減輕基於微調的越獄攻擊》(24 年 6 月) —— 顯示在微調期間僅需 10-100 個有害示例，安全對齊就會崩潰，在 OpenAI API 上的成本低於 0.20 美元。

《錦囊妙計：LLM 越獄攻擊基準測試》(24 年 11 月) —— 證明微調顯著損害了多個模型家族的安全對齊，像 Vicuna 這樣的模型在微調後攻擊成功率大幅上升。

過度優化與分佈偏移：

《可證明減輕 RLHF 中的過度優化：你的 SFT 損失隱含地是一個對抗性正則化項》(24 年 5 月) —— 基於理論的分析顯示，當學習不完美的獎勵模型誤導策略優化偏離真實偏好時，DPO/RLHF 會遭受過度優化。

《語言模型抵制對齊：來自數據彈性的證據》(25 年 9 月) —— 引入了「彈性」概念：模型表現出對對齊的抵制，選擇性地遵守訓練目標以保留基礎偏好。

泛化與多樣性：

《理解 RLHF 對 LLM 泛化與多樣性的影響》(23 年 10 月) —— 發現 RLHF 顯著降低了輸出多樣性，同時出現了泛化權衡；微調期間存在過擬合問題。

《重新思考對齊方法的評估：對多樣性、泛化與安全性的見解》(25 年 9 月) —— 對 PPO、DPO、ORPO、KTO 的系統基準測試顯示，這些方法在分佈偏移下表現掙扎，安全對齊模型在分佈外測試中表現更差。

《論 SFT 的泛化》(25 年 8 月) —— 顯示 SFT 使用稀疏指示函數獎勵，導致對罕見精確匹配演示的過擬合，損害了訓練數據之外的泛化。

^(^)中訓練（Mid-training）是預訓練期結束時（具有單獨的超參數）持續進行隨機梯度下降訓練的另一個階段，通常用於在長上下文長度上對最高質量的散裝數據進行模型訓練——它與微調的主要區別在於它使用多得多的數據和顯著較低的學習率。這是一個近期的發展，基礎模型公司仍在對其進行實驗。更多細節見《中訓練橋接預訓練與後訓練分佈》(25 年 10 月)。
^(^)想必是使用了類似於以下論文的技術：《數據混合法則：透過預測語言建模性能優化數據混合》、《DoReMi：優化數據混合加速語言模型預訓練》、《最大化數據潛力：透過兩階段預訓練增強 LLM 準確性》或《UtiliMax：透過 LLM 估計的效用優化預訓練數據混合》。
^(^)例如，參見《語域始終重要：從語言變異的角度分析 LLM 預訓練數據》以了解為什麼這可能很重要。
^(^)參見新論文的附錄 I 進行初步調查：對齊預訓練似乎改變了對湧現失準 (EM) 的反應，但沒有一致的模式。這可能是因為 EM 期間誘導的人格是人類罪犯的人格，而非 AI 的人格，因此基本上不受預訓練集中 AI 相關部分變化的影響？或者可能是這種評估本身就存在噪聲？
^(^)一旦職位填補，鏈接的職位描述文件可能會消失。因此，對於任何想要評估 OpenAI 對該主題重視程度的人，這裡是最相關的部分：

關於團隊：

安全系統團隊負責各種安全工作，以確保我們最好的模型能安全地部署到現實世界中造福社會，並處於 OpenAI 構建和部署安全 AGI 使命的前沿，推動我們對 AI 安全的承諾，並培養信任和透明的文化。

預訓練安全團隊的目標是構建更安全、更強大的基礎模型，並在訓練期間實現更早、更可靠的安全評估。我們的目標是：

開發上游安全評估，以監控不安全行為和目標如何以及何時湧現；

透過有針對性的預訓練和中訓練干預創建更安全的先驗，使下游對齊更有效且高效；

設計安全源於設計（safe-by-design）的架構，以便更好地控制模型能力。

此外，我們將進行必要的基礎研究，以了解行為在整個訓練過程中如何湧現、泛化以及如何可靠地測量。

關於職位：

預訓練安全團隊正在開拓如何在模型進入後訓練和部署之前就將安全性構建進去。在此職位中，你將參與模型開發的全棧工作，重點是預訓練：

識別基礎模型中首次湧現的安全相關行為

在不等待全規模訓練運行的情況下評估並降低風險

設計使安全行為成為默認設置的架構和訓練設置

透過納入更豐富、更早期的安全信號來增強模型

我們與 OpenAI 的安全生態系統（從安全系統到訓練）跨部門合作，確保安全基礎穩固、可擴展且立足於現實世界的風險。

在此職位中，你將：

開發新技術以預測、測量和評估早期模型中的不安全行為

設計能改善預訓練先驗並降低下游風險的數據策劃策略

探索能提高可控性的安全源於設計的架構和訓練配置

在預訓練棧中引入新型安全導向的損失函數、指標和評估

與跨職能安全團隊密切合作，統一預訓練和後訓練的風險降低

如果你具備以下條件，可能會在此職位中大展身手：

具有開發或擴展預訓練架構（LLM、擴散模型、多模態模型等）的經驗

熟悉訓練基礎設施、數據管道和評估框架（如 Python, PyTorch/JAX, Apache Beam）

喜歡動手研究——設計、實施和迭代實驗

喜歡與多樣化的技術和跨職能合作夥伴（如政策、法律、訓練）合作

數據驅動，具有強大的統計推理能力和嚴謹的實驗設計

重視構建乾淨、可擴展的研究工作流，並為自己和他人精簡流程。

(註：我將這段文字包含在腳註中，不應被解讀為對在 OpenAI 從事對齊工作的隱晦認可——人們需要根據如何最好地度過他們的 80,000 小時做出自己的倫理決定。)

— Lesswrong