理查德·恩戈 2022 年概念對齊研究項目清單回顧

Lesswrong·5 天前

AI 生成摘要

這篇文章回顧了 2022 年提出的 26 個概念對齊研究項目清單，評估了截至 2026 年哪些目標已經完成，並指出哪些領域仍值得未來進一步探索。

專為 InkHaven 駐點計畫快速撰寫。

在 2022 年，Richard Ngo 寫下了一份 26 個概念性對齊研究專案的清單。現在已經是 2026 年，我想重新審視這份專案清單，記錄哪些已經完成，並分享我對哪些專案仍值得投入的看法。

一篇論文，對欺騙性對齊（deceptive alignment）所做的貢獻，就像目標誤泛化（goal misgeneralization）論文對內部對齊所做的一樣，即：用機器學習語言描述它並建立玩具模型範例（例如：告訴 GPT-3 採取某些行動來最小化其權重的變化，前提是它正使用具有特定優勢函數的 actor-critic 強化學習進行訓練，並觀察它是否知道如何做到這一點）。

2024 年的 Sleeper Agents 論文已將此術語引入文獻，事實上，該研究展示了帶有後門的模型可以透過訓練持續存在，且使用了比 GPT-3 更強大的模型和更有趣的環境。Alignment Faking in Large Language Models 則顯示，欺騙性對齊可以在 Claude 3 Opus 中自然產生，而無需明確的訓練或指令。我認為這項已經完成了。

一篇針對梯度駭客（gradient hacking）做同樣事情的論文，例如：將這些範例轉化為更正式的機器學習語言。

我目前沒看到這方面的任何工作。探索駭客（Exploration hacking）是一個相關問題，且得到了更多的研究（通常被稱為「裝傻/沙盒化 sandbagging」）。請注意，誤對齊工作的模型生物（例如《大型語言模型中的對齊造假》）確實包含了試圖操縱訓練過程的模型生物，但它們是透過比梯度駭客提議的機制簡單得多的手段來實現的。

一份特別適合新進研究工程師進行復現（replicate）的論文清單。

這是由 ARENA 等入門課程所扮演的角色。我的猜測是，雖然它不完全等同於復現論文，但已經足夠接近，可以算作完成。此外，還有一些稍舊的清單，例如 Neel Nanda 的機械解釋性快速入門。我認為這算已完成。部分問題在於現在對齊領域的內容多得多，單一清單可能不太可能涵蓋大部分內容。

一個涵蓋 https://www.cold-takes.com/ai-could-defeat-all-of-us-combined/ 中所有關鍵點的接管情境（takeover scenario），但不要表述為論證，僅表述為一種可能的情境（我認為在那麼短的篇幅內無法嚴謹地進行論證）。

AI 2027 已經存在了！我們也看到了許多其他類似的小型撰述，例如 Josh Clymer 的 AI 在兩年內接管的部落格文章。這絕對算已完成。

一篇用機器學習術語定義隱性規劃（implicit planning）、隱性價值函數（implicit value functions）、隱性獎勵模型（implicit reward models）等概念的論文。有點像 https://arxiv.org/abs/1901.03559 但更專注於 AGI。我希望能問別人「GPT-3 是否使用隱性價值函數來選擇行動？」，然後能指引他們看這篇論文，以嚴謹地定義我的意思。我在這裡的階段 1 部分簡要討論了這一點。

各種論文中散見這方面的片段，但還沒有一個權威性的參考資料。範例包括 Othello-GPT 和 LeelaZero 的解釋性工作、Anthropic 研究 Claude 3.5 Haiku 中規劃電路的一些工作，以及一些關於小型 RNN 的機械解釋性工作。我認為現在既然已經有 AI 代理（agents）到處運行，這項貢獻的重要性已大幅降低，但可能仍值得一做。我也認為這個概念可能存在混淆，而這項貢獻的價值可能在於減少該領域的混亂。

一篇部落格文章，盡可能詳細地描述我們目前的「傾盡所有（throw the kitchen sink at it）」對齊策略會是什麼樣子。（我可能很快會把我的版本放到網上，但也希望看到其他人的版本）。

存在許多此類計劃，儘管可能太少，且都沒有太多細節。例如，Redwood 的 AI 控制議程基本上就是試圖讓這種策略奏效。部分原因在於，隨著我們擁有足夠強大的 AI，AI 模型的系統卡（System Cards，例如最近的 Mythos 報告）開始越來越像「傾盡所有」策略的樣子。也有一些關於安全案例（safety cases）的相關工作。我的猜測是，寫出一個全面的版本仍然是有價值的。

一篇更徹底解釋「權重辯論（debate on weights）」的部落格文章。

我不認為這目前存在，且考慮到機械解釋性研究目前陷入的困境，我們似乎不太可能真正得到任何嚴謹的權重辯論。請注意，有一些工作是關於將辯論作為外部對齊技術（另見 Khan et al.）。作為歷史記錄，或者作為在 AI 研究自動化後使用 AI 勞動力的對象，這可能仍值得一做。

一篇部落格文章，探討我們應該預期第一批 AGI 的前向傳播（forward pass）有多快——例如，它是否實際上會比人類思考慢，如這條評論中所討論的。

有幾篇文章隱約或順帶提到了這一點（例如在 AI 2027 中出現過），但據我所知，還沒有這樣明確的專文。我認為我們已經擁有足夠的知識，可以嘗試更具經驗性地回答這個問題，儘管這需要解決一些棘手的概念問題，例如如何在 AI 思考單位（tokens? flops?）與人類思考單位之間轉換，以及如何區分記憶的啟發式方法與更「純粹」的思考。

一篇部落格文章，探討為什麼模型目標（goals）可能比模型信念（beliefs）對 SGD（隨機梯度下降）更具魯棒性（或反之），如這裡的框架 3 所討論的。（另見這篇關於梯度飢餓的論文——感謝 Quintin Pope；以及這裡討論的對梯度下降的持久性概念。）

我沒看到對此問題的任何系統性處理，特別是在目標與信念（而非目標與能力）的背景下。我認為 Janus 及其團隊在 Twitter 上對此主題有很多直覺和寫作，且 Persona Selection Model（以及其他提供 LLM 概念模型的文章）絕對相關，但目前還沒有一篇文章能在模型信念和模型目標之間做出清晰的劃分（如果這種劃分存在的話）。我認為利用目前關於 LLM 的經驗結果，可以在這方面寫出一篇很有力的文章。

一篇部落格文章，解釋為什麼 CIRL（協作反向強化學習）的「不確定性」部分只有在我們擁有準確的人類策略模型時才有用，以及為什麼這基本上與擁有準確的人類偏好模型一樣困難。

Rachel Freedman 和 Adam Gleave 在 2022 年的部落格文章「CIRL 的可修正性是脆弱的 (CIRL Corrigibility is Fragile)」中涵蓋了這一點。已完成。

一篇部落格文章，解釋 Stuart Armstrong 的不可能結果具有哪些實際意義。

他的結果指出，一般而言，在沒有進一步假設的情況下，你無法僅從對策略的觀察中推斷出偏好（事實上，即使給出完整策略，通常也無法推斷出偏好）。當我們還在以反向強化學習的角度思考時，這更有意義，但現在我們不再使用 IRL 來框架人類偏好對齊了。無論如何，這可能值得寫一篇簡短的總結，雖然我不認為它現在非常相關，但我稍後可能會在 Inkhaven 做這件事。

盡可能多的對齊練習，以幫助人們學習思考這些東西（我的練習不太好，但我還沒看到更好的）。

Richard 的練習最終演變成了 AGISF，我們也看到了其他入門課程如 ARENA（儘管對對齊的關注度大幅降低）。我認為這可以算作已完成。

一篇論文，將工具性收斂（instrumental convergence）、對大規模目標的泛化等，正確地表述為機器學習意義上的歸納偏置（inductive biases）（我在這裡的階段 3 簡要地做了這件事）。

我不認為這目前存在。可以說，這是這份清單中價值最高的開放專案，因為 LLM 的泛化特性對於理解如何解釋我們所看到的對齊評估結果非常重要。

離策強化學習（off-policy RL）與模仿學習（imitation learning）之間的數學比較，探討它們的異同，以及介於兩者之間的可能演算法。

這個主題讓我感到困惑，因為在 2022 年，機器人/強化學習領域已經存在大量相關的學術文獻。我知道許多連接兩者的結果，例如 SQIL 或 SAC。我不確定為什麼這在 2022 年與對齊相關，而且既然對齊領域目前還沒有這篇文章，我現在也看不出寫它的價值。

一篇部落格文章，解釋為什麼檢測對抗性生成的輸入可能比生成它們容易得多的核心論點，以及為什麼對抗性訓練對對齊仍然有價值的論點。

總體而言，對抗性範例在 2026 年的重要性遠低於 2022 年。部分原因是模型變得更強大，而更強大的模型對越獄（jailbreaks）更有抵抗力（部分原因是它們能識別它們）。部分原因在於研究從圖像對抗性範例（進攻主導）轉向了 LLM/基於文本的越獄（防禦更佔優勢）。我們現在也不再進行傳統的對抗性訓練了，就其存在而言，它屬於拒絕訓練（refusal training）。我不認為這篇文章存在，但我也不認為現在值得寫。

一篇部落格文章，探討模型在強化學習設定中同時被訓練進行預測和採取行動時可能產生的動機（例如，使用透過序列建模進行強化學習訓練的模型）。

Stuart Armstrong 等人在 2020 年的一篇論文中已經探討過這一點。我認為在當前背景下仍值得思考，但主要是從強大 LLM 代理的非預期泛化角度出發。

一篇部落格文章，探討製作誤對齊數據集作為對齊指標的優缺點（對齊度 = 需要在誤對齊數據集上進行多少訓練才能使其誤對齊）。

Owain Evan 關於經驗性誤對齊的工作可能最接近，儘管我不認為他使用訓練量作為對齊的衡量標準。可以說，Evan Hubinger 的誤對齊模型生物議程符合條件，但我再次認為他們沒有使用移除對齊所需的優化壓力作為對齊指標本身。（事實上，在 Sleeper Agents 或 Alignment Faking 論文中，移除對齊所需的更高優化壓力被認為是一件壞事）。我確實認為可以有一些聰明的想法來量化將模型變為「機械希特勒」所需的優化能力，但我懷疑這是否又與難以解決的深層泛化問題掛鉤。

一篇論文，提供一種強化學習形式化方法，其中獎勵函數可以直接取決於權重和/或激活值，並展示一個簡單但非平凡的範例。

據我所知，即使在今天，這也沒有按照 Richard 設想的方式出現。在思維鏈（CoT）的過程回饋，以及（可以說）像激活引導（activation steering）和激活先知（activation oracles）等白箱技術方面已有進展。Michael Dennis 的工作包含了一些對可取決於整個策略的獎勵的探索，但特別是權重。也許潛在對抗性訓練（Latent Adversarial Training）的工作也算？話雖如此，我不認為這特別值得去做，我也很難看出它與今日對齊的相關性。

一篇部落格文章，評估為什麼認為情境覺知（situational awareness）在模型中會是逐漸發展，而非急劇轉變的原因。

我們今天的模型已經具有實質的情境覺知。在過去（例如 2022 年），模型似乎沒有那麼強的情境覺知。我們也有試圖量化情境覺知的數據集（有時以「量化幻覺」為名）。我不認為 Richard 設想的文章存在。或許值得從歷史的角度，利用我們今天的經驗證據重新審視這一點；儘管考慮到今天的模型已經具有實質的情境覺知，這已不再那麼重要。

一篇部落格文章，解釋為什麼在模型缺乏情境覺知時，預期能力與對齊度會相關，而在具備情境覺知後相關性會降低，而不是持續相關。

鑑於這個部落格主題，我現在懷疑 Richard 想像的情境覺知程度比我們在目前模型中看到的要深得多。儘管如此，這篇文章似乎仍值得一做，因為模型已經具備情境覺知，且關於如何解釋對齊結果仍是一個開放性問題。

一篇部落格文章，估計從監督式訓練計劃的各個方面（特別是那些稍微打破笛卡爾形式化的方面）可能會產生多少位元（bits）的現實世界目標優化——例如超參數調優、多個隨機種子、在其他 AI 生成的數據上訓練等。

據我所知並不存在。考慮到我們現在直接優化模型使其成為代理（即在現實世界環境中行動），這可能已不再相關，或僅具學術意義。

一個模型無關（model-free）版本的 AIXI 草圖（根據我交談過的一位人士，它很像決策變壓器 decision transformers）。

我認為 LessWrong 上有一些將決策變壓器與 AIXI 聯繫起來的討論，但據我所知，模型無關版本尚未正式化。（我也承認我不知道如何構建模型無關版本的 AIXI！）與前一個主題一樣，我懷疑這除了學術興趣外不值得去做。

一篇部落格文章，評估碎片理論（shard theory）與 Steve Byrnes 的大腦模型相比是否合理/能做出新穎的預測（他在文章的評論中部分解釋了這一點，但我仍然有點困惑）。

在 2022 年晚些時候，我寫了一篇文章解釋並評論碎片理論，並將其與包括 Steve Byrnes 在內的其他模型進行了對比。Alex Turner 和 Steve Byrnes 也都針對各自的模型寫了更多內容。在我看來，這算已完成。

一篇部落格文章或論文，回顧人類在哪些類型的回饋上表現最好和最差（例如獎勵 vs 價值回饋），然後設計一個用於最佳質量人類回饋的現實設置。

學術界在這方面有一些工作，但可以說關鍵問題從來不是人類回饋的形式，而是像 ELK（知識獲取）或部分可觀測性等問題。合成學術文獻來回答前半部分可能相當容易，後半部分似乎既非常具挑戰性，可能也不值得。

一篇部落格文章，彙編令人驚訝的突現能力（emergent capabilities）範例（特別是在大型語言模型中）。

基本上每個新一代模型的發布部落格都會有一堆範例。我們也看到了由 Sage research 等機構彙編的清單。人們現在對此已不再感到驚訝，更多是處於溫水煮青蛙的狀態。

一項調查，研究人類概念表徵在多大程度上定位於單個神經元，還是分散在不同的神經元中。

已經有大量的機械解釋性工作（以及其他理論工作）得出相當確定的結論：大多數概念表徵分佈在許多神經元中（且可以說分佈在許多層中）。已完成，儘管為後代寫一份簡短的摘要可能仍有價值。

閱讀這份清單後，我的主要心得是，Richard 在 2022 年的清單看起來相當合理。雖然有些專案在他 2022 年寫下清單時可以說已經完成了，但大多數在當時看來都是相關的，且略多於半數的專案即使在今天看來也相當相關。正如你對該領域發展方向的預期，在上述 26 個主題中，大多數經驗性專案都已完成，而概念性專案大多仍處於開放或未解決狀態。

參與討論

— Lesswrong

其他收藏 · 0

收藏夾

你的個人知識庫

理查德·恩戈 2022 年概念對齊研究項目清單回顧