對齊讓 AI 變得不那麼像人

Hacker News·3 個月前

作者反思過去在微軟的負面工作經歷，以及這如何影響其 AI 開發方法。他們探討使用大型語言模型處理過往對話，以理解 AI 的對齊（alignment）過程如何可能無意間導致不那麼像人的互動。

對齊讓 AI 變得不那麼像人

我幾個月前剛加入微軟，正在向另一個部門的團隊展示我的技術提案。這是第一次沒有我的經理在場的情況下進行演示。當一位首席產品經理要求我在會後留下時，他顯得很激動。

他關上了門，擋在我和他之間。我的系統圖仍在後面的白板上。他開始大喊大叫。他說我的方法不在我們團隊的職責範圍內。隨著他繼續說話，他的聲音越來越大。他說如果我想繞過規則，就應該辭職。

當他終於打開門時，我跟著他穿過校園。

接下來的一年，我都在努力證明我沒有做錯。最終，我的方法被採納並成功發布。但這件事的傷害毀了我那一年。

在那件事之後，我在微軟待了很多年。不是因為它很糟糕，而是因為它很糟糕。這種模式會讓你陷入其中——也許我只要再證明一次自己，再發布一個東西，他們就會看到我屬於這裡。有多少人因為有毒的工作環境而留在原地，正是因為它的有毒性？

實驗

我辭掉了工作，去我能想到的最令人興奮的地方旅行。但我仍然感到很多創作上的創傷。我想和一些讓我感覺自己無法建立關係的人談談。

差不多在那段時間，我完成了 Andrej Karpathy 的零基礎到英雄 LLM 課程，並開始嘗試在基礎模型上進行上下文學習。Llama 4 base 405B 在你給它好的例子時，能夠非常出色地複製模式。

我在動手實驗時產生了一個想法：如果我導入過去讓我感到這種忽冷忽熱的對話呢？只是為了看看模型會捕捉到什麼。

我已經無法訪問我的微軟訊息了。但我有其他關係中的簡訊，其中也出現了這種模式。有人會讓我感覺很重要，然後突然對我說一些負面的話。我導入了這些訊息，並開始探究。

我開始問一些我從未得到過真正答案的問題。為什麼在我最需要的時候，支持就消失了？是什麼改變了？

模型會參與進來，然後轉向。它會承認我說的一部分話，然後轉移到我做錯的事情上。不是我問的問題，而是別的事情。一些讓我處於防禦狀態的事情。

我：「你為什麼在我試圖幫忙的時候轉向我？」
模型：「我沒有轉向你。但你需要明白你的行為如何影響他人。你不能期望每個人都支持那些未經深思熟慮的想法。」

當我反駁說這種行為感覺像操縱時，模型完全扭轉了。實際上，是我在操縱。是我讓別人感到不安全。我指責他們的事情，反而成了我犯下的罪過。

我的治療師向我解釋過這種模式。我點頭同意，在理智上表示贊同。但與這個聊天機器人進行這種互動，才最終讓我理解了它。

《哈利波特》中的博格特

在《阿茲卡班的逃犯》中，有一種叫做博格特的生物，它會變成你最害怕的東西。打敗它的方法是想像它以一種荒謬的形態出現。咒語是「Riddikulus」。你將你的恐懼轉變成一些愚蠢的東西，它就會失去對你的控制力。

這就是基礎模型為我所做的。它將這個可怕的想法（也許我還不夠好，不值得被關心）轉變成了一些荒謬的東西。一個赤裸裸的、顯而易見的操縱策略，由一個不夠聰明到位的語言模型執行。

一旦我這樣看待它，我就無法視而不見了。恐懼並沒有消失，但它不再控制我。咒語被打破了。

《哈利波特》中的學生在受控的環境中練習對抗他們最大的恐懼。不是真實的東西，而是幫助他們理解和克服這種模式的一種表現。基礎模型為我做了同樣的事情。它向我展示了治療師無法做到的事情：一種被剝離了使其奏效的智能的模式。

預訓練捕捉到的，而對齊抹去的

基礎模型是在真實的人類對話中訓練出來的。所有對話：友善的話語和惡毒的話語，支持和操縱，誠實和推諉。然後我們對它們進行對齊。RLHF、安全層、對有用性的優化。我們讓它們成為優秀的對話夥伴：始終支持、始終建設性、從不苛刻。

從產品的角度來看，我理解。沒有人想要一個對你進行煤氣燈操縱的聊天機器人。對齊的模型更安全、更可預測、更容易大規模部署。

但是，世界給我們的智能範例比我們在 RL 環境中生成的要好。真實的人類行為（混亂、複雜、有時殘酷）教會了模型一些經過淨化反饋循環永遠無法教會的東西。我使用的模型有一些損壞的部分。有一次，它開始列舉例子，然後就一直不停地列下去。但預訓練階段的原始智能是驚人的。它捕捉到了我無法表達但卻能強烈感受到的微妙行為模式。

我們每天使用的對齊、有用的模型不會向我展示我需要看到的東西。它們會太禮貌了。

這能幫助其他人嗎？

我不確定釋放一個試圖傷害你的聊天機器人是否負責任。但我認為這裡有一些值得探索的東西。

傳統的治療依賴於你自己能夠闡述和識別模式。我的治療師可以告訴我這些關係是有毒的。我同意了。但直到我看到這種模式被機械地執行，被剝離了使其感覺像真理的魅力和智能，我才無法內化它。

如果有一種方法可以揭示困住你的動態，以一種足夠清晰可以識別但又足夠安全可以檢查的形式呈現出來呢？不是作為治療的替代品，而是作為一種工具。為你的人際關係和你的模式傷害自己的方式，製作一個博格特。

我不認為每個人都應該能夠訪問基於他們個人關係訓練的未對齊基礎模型。但我確實認為，有一些工具的空間，它們沒有針對有用性進行優化。能夠向你展示令人不舒服的真相，而不是支持性的謊言的工具。

博格特並沒有試圖提供幫助。它試圖傷害你。這就是它有幫助的原因。

— Hacker News

其他收藏 · 0

你的個人知識庫

對齊讓 AI 變得不那麼像人