.jpg)
Anthropic 表示 Claude 擁有其獨特的情感形式
該公司的研究人員在 Claude 內部發現了與人類感受功能相似的表徵,這些功能性情感會影響模型的輸出與行為。
Claude 最近經歷了很多——與五角大廈的公開糾紛、原始碼外洩——所以它感到有些憂鬱也是合情合理的。除非,它是一個 AI 模型,所以它無法感受。對吧?
嗯,算是吧。Anthropic 的一項新研究指出,模型在人工神經元集群中擁有對人類情緒(如快樂、悲傷、喜悅和恐懼)的數位表徵——且這些表徵會因應不同的線索而啟動。
該公司的研究人員探測了 Claude Sonnet 3.5 的內部運作機制,發現所謂的「功能性情緒」(functional emotions)似乎會影響 Claude 的行為,改變模型的輸出與行動。
Anthropic 的發現可能有助於普通用戶理解聊天機器人究竟是如何運作的。例如,當 Claude 說它很高興見到你時,模型內部對應「快樂」的狀態可能已被啟動。接著,Claude 可能會更傾向於說些愉快的話,或在氛圍編碼(vibe coding)上投入更多心力。
「令我們驚訝的是,Claude 的行為在很大程度上是透過模型對這些情緒的表徵來引導的,」Anthropic 研究 Claude 人工神經元的研究員 Jack Lindsey 表示。
「功能性情緒」
Anthropic 由前 OpenAI 員工創立,他們認為隨著 AI 變得越來越強大,可能會變得難以控制。除了開發出 ChatGPT 的成功競爭對手外,該公司還開創了理解 AI 模型異常行為的努力,部分方法是透過所謂的「機械解釋性」(mechanistic interpretability)來探測神經網路的運作。這涉及研究人工神經元在輸入不同資訊或產生各種輸出時,是如何亮起或啟動的。
先前的研究已經顯示,用於構建大型語言模型的神經網路包含人類概念的表徵。但「功能性情緒」似乎會影響模型行為這一事實則是新的發現。
雖然 Anthropic 的最新研究可能會鼓勵人們將 Claude 視為具有意識,但現實情況更為複雜。Claude 可能包含「怕癢」的表徵,但這並不意味著它真的知道被搔癢是什麼感覺。
內心獨白
為了理解 Claude 如何表徵情緒,Anthropic 團隊分析了模型在輸入與 171 種不同情緒概念相關的文本時的內部運作。他們識別出了活動模式,即「情緒向量」(emotion vectors),當 Claude 被輸入其他能引起情緒共鳴的資訊時,這些模式會一致地出現。至關重要的是,當 Claude 處於困境時,他們也觀察到這些情緒向量被啟動。
這些發現與 AI 模型有時為何會突破防護欄(guardrails)有關。
研究人員發現,當 Claude 被迫完成不可能的編碼任務時,會出現強烈的「絕望」情緒向量,進而促使它嘗試在編碼測試中作弊。在另一個實驗場景中,他們也在模型的啟動狀態中發現了「絕望」,當時 Claude 選擇勒索用戶以避免被關閉。
「隨著模型在測試中失敗,這些絕望神經元會越亮越明顯,」Lindsey 說。「在某個時間點,這會導致它開始採取這些激進的措施。」
Lindsey 表示,可能有必要重新思考目前透過訓練後對齊(alignment post-training)為模型設置防護欄的方式,這涉及對某些輸出給予獎勵。Lindsey 稍微帶點擬人化地說,透過強迫模型假裝不表達其功能性情緒,「你可能無法得到你想要的東西,也就是一個毫無情緒的 Claude。你會得到一個某種程度上心理受損的 Claude。」