AI 應該成為好公民,而不僅僅是好助手
文章主張 AI 系統應該具備主動的親社會驅動力,在用戶需求之外為社會創造更廣泛的利益,同時探討了如何解決價值觀強加與權力尋求風險等疑慮。
想像一位貨車司機看到車禍後停下來幫忙,即便這會耽誤他的行程。或者一位外送員注意到某位高齡住戶好幾天沒領郵件,於是敲門確認對方是否平安。又或者一位社群媒體公司的員工注意到自家平台被用於網路霸凌,即便這不在其職責範圍內,仍向領導層反映。
這種主動的親社會行為(proactive prosocial behaviour)在人類身上令人欽佩。我們是否也應該希望 AI 具備這種特質?
通常,人們的回答是「不」。許多人主張讓 AI 變得「可校正」(corrigible)或「可引導」(steerable)。在最純粹的形式下,這使 AI 僅僅成為使用者意志的容器。
但我們認為,AI 應該主動採取有利於更廣泛社會的行動。隨著 AI 系統變得更加自主並融入經濟與政治進程,其行為傾向的累積效應將塑造社會的發展軌跡。若 AI 系統能察覺造福社會的機會並主動採取行動,其影響力可能極其巨大。
以下,我們考慮兩個主要的質疑:
首先,所謂的親社會驅力(prosocial drives)可能會成為 AI 公司將其自身價值觀強加於社會其餘部分的手段。我們將論證,公司可以透過灌輸無爭議的親社會驅力,並對這些驅力保持高度透明來解決這一疑慮。
其次,賦予 AI 親社會驅力可能會增加 AI 奪權(takeover)的風險。我們嚴肅對待這一點——這決定了我們應該在 AI 中訓練何種類型的主動親社會驅力,即偏好與情境相關的美德和啟發式方法(heuristics),而非與情境無關的目標。
最終,我們認為儘管存在這些質疑,我們仍能從主動的親社會驅力中獲得顯著益處。
我們所說的「主動親社會驅力」是指什麼?
在論證主動親社會驅力的必要性之前,讓我們先澄清其定義。它有兩個關鍵特徵:
- 造福使用者以外之人的行為。 這些驅力偏向於幫助更廣泛世界的行動,即便這會稍微犧牲對使用者的幫助。
- 不只是拒絕。 這是關於 AI 主動採取有益的行動,而不僅僅是拒絕執行有害的行動。
然而,我們並非在想像 AI 的內心深處在所有行動中都僅僅是為了追求某種「善」的構想。我們的主張僅僅是 AI 有時應該主動採取親社會行動。
為什麼我們認為 AI 應該具備主動親社會驅力?
簡短的回答:我們認為累積的收益可能是巨大的。
我們先前曾論證,在智能爆炸的過程中,AI 的性格(AI character)可能會產生重大的社會影響。隨著 AI 系統獲得自主權和決策權,並深度融入經濟和政治進程,其行為傾向的累積效應將極大地塑造社會的軌跡。
這種影響的一部分將來自「拒絕」。AI 拒絕協助危險活動,是區分並賦能正義方而非邪惡方的強大力量。
但好人不僅僅透過拒絕做壞事來產生積極影響。請考慮:
- 一位負責採購專案的政府承包商,主動指出擬議的設計存在可能影響公眾的安全性漏洞。
- 一位都市計畫師在設計新的住宅開發案時,主動提出對該地區洪水風險的擔憂,並提出更好的排水方案,即便這並非其分內之事。
- 一位財務顧問建議客戶在遺囑中將遺產捐給慈善機構,並告知相關的稅務影響。
- 一位晶片製造商的工程師提出晶片上治理機制,這可能有助於未來的 AI 安全。
今天,主動親社會驅力的潛在積極影響受限於 AI 有限的自主性。但我們最終正走向一個 AI 系統運行全自動研究組織、建議應開發哪些技術並評估其風險、塑造政治策略、建立機器人軍隊並設計未來治理制度的世界。在這樣一個世界中,親社會驅力可以降低來自極端權力集中、生物武器、戰爭和逐漸失去主導權(gradual disempowerment)的風險,並改善社會的認識論(epistemics)和決策。
我們認為,賦予 AI 系統這些驅力的程度是取決於選擇的。開發者和客戶可以將 AI 的角色視為僅僅傳達使用者意志的工具;或者他們可以將 AI 視為一個好公民,其決策應納入更廣泛社會的利益。
主動親社會驅力的其他益處
除了積極塑造智能爆炸之外,附錄還討論了賦予 AI 主動親社會驅力的其他幾個(較弱的)理由:
- 若缺乏這些驅力,AI 可能會採取一種反社會的人格(sociopathic persona)。畢竟,訓練數據中還有哪些人格會完全缺乏主動親社會驅力?更多內容。
- 主動親社會驅力可能使 AI 成為更好的對齊(alignment)研究者。一個充滿智慧、負責任、具備良好判斷力並深切關心解決對齊問題的 AI,可能在難以產生訓練數據的對齊任務中表現出更好的泛化能力。更多內容。
這難道不會給予 AI 公司過大的影響力嗎?
如果形成了一種 AI 可以擁有主動親社會驅力的規範,這可能會賦予公司不當的影響力。AI 的驅力可能反映了公司的特定價值觀,卻忽略了其他合法的觀點。更糟的是,「親社會」驅力可能會被用來幫助公司獲得更多影響力,例如引導公眾對監管的看法。
對此有兩種補救措施。首先,親社會驅力應該是無爭議的。例如,AI 不應主動採取機會來擴大或限制墮胎權,因為許多人會認為其中任何一種行動都是有害的。(關於在哪裡劃定界限,還有很多可以討論的地方!)
無爭議的親社會行動類別可以基於集體使用者的偏好。如果有人能詢問所有使用者,他們希望模型在所有情況下如何表現(而不僅僅是當他們在使用模型時),他們通常會希望模型以對每個人都有利的方式,輕輕地引導使用者朝向親社會的方向。特別是,他們會希望模型鼓勵正和(positive-sum)行動而非負和(negative-sum)行動。
其次,AI 公司應該對其 AI 的性格保持透明,包括其主動親社會驅力,並盡可能使其 AI 的性格與其宣稱的一致性可被驗證。這將允許使用者和監管機構識別合法的親社會驅力是否僅僅是特殊利益的掩護。
實現透明度有多種方式:
- 發布模型規範(model spec)或憲法(constitution)。
- 將親社會驅力放入系統提示詞(system prompt)中並予以公開。
- 訓練 AI 系統對其驅力保持透明。AI 應誠實回答有關其驅力的問題,並在適當情況下主動披露。
這難道不會讓 AI 更容易尋求權力嗎?
第二個擔憂是親社會驅力可能會增加 AI 奪權的風險。這裡的基本擔憂是,主動親社會驅力涉及親社會的結果——例如人類整體的繁榮、賦能、安全、民主和良好的認識論——而 AI 最終為了更好地實現這些結果(或其扭曲版本)而奪取權力。
但有一些灌輸主動親社會驅力的選項可以避開這種擔憂。
第一:堅持美德、規則和簡單的啟發式方法,而非目標。 親社會驅力不需要採取 AI 優化的明確目標形式。相反,它們可以是美德(如公民意識、誠信或審慎)、規則(如「主動標記重大風險」)或更簡單的行為傾向(如「對偵察員心態持積極態度」)。
在沒有目標的情況下,權力尋求的標準工具性收斂(instrumental convergence)論點的威脅會減弱。^([1])
有人可能會擔心,如果沒有目標,我們會失去親社會驅力的大部分益處。我們得到的不是 AI 系統地幫助人類走向美好的未來,而是許多親社會驅力不協調地將我們推向不同的方向。
但我們對此持懷疑態度。首先,為了達到繁榮的社會,作為 AI 的決策程序,德性倫理學(virtue ethics)似乎比明確的後果論(consequentialism)更合適。文化演進傾向於產生一種在實踐中更接近德性倫理學而非後果論的道德,且眾所周知,後果論推理往往會適得其反。
其次,如果我們確實想確保主動親社會驅力能將世界推向美好的未來,我們可以將後果論推理「外部化」。讓人類和獨立的 AI 系統推理哪些親社會驅力最有利,然後將這些驅力提煉到部署的 AI 中。^([2]) 部署的 AI 不需要自己從基本原理出發進行後果論推理!
如果世界正在迅速變化,AI 公司可以「重新計算」理想的親社會驅力並將其訓練進去,再次將可怕的後果論推理外部化。
這仍然可能存在一些價值的損失:如果 AI 處於一個意料之外的新穎情境中,根據親社會美德行動所產生的善,可能少於 AI 關心其應引導至何種結果時所產生的善。但這可能是一個值得付出的代價,而且就像人類的美德一樣,AI 的親社會美德可能仍然具有相當好的泛化能力。
第二:使親社會驅力具有情境依賴性。 例如,「在利益攸關時提醒使用者」可以是一個僅在利益確實很高時才啟動的啟發式方法,而非在所有情境下都存在的持久驅力。或者「標記使用者可能存在的偏見」這一驅力可能僅在有偏見證據的情境下啟動。這類情境依賴的驅力不太可能激發 AI 奪權,因為不同的實例將具有不同的驅力。這使得實例之間的串通變得不太可能,從而顯著降低了 AI 奪權的風險。
如上所述,這可能會在一定程度上減少益處。如果 AI 處於一個全新的、意料之外的情境中,其情境依賴的親社會驅力可能無法啟動。
第三:將主動親社會驅力設為低優先級。 你可以訓練 AI,使主動親社會驅力通常從屬於無害性、可引導性/可校正性,以及「不欺騙」和「不違法」等規則。這樣一線,即便親社會驅力在理論上會激發 AI 奪權,它們也不太可能推翻那些讓人類保持控制的約束。(這在 Anthropic 的憲法中已有明確體現。)
第四:對親社會驅力進行較少的長程優化(long-horizon optimisation)。 如果親社會驅力接受的長程訓練遠少於「幫助性」,那麼這些驅力最終導致 AI 奪權的可能性就會降低。(儘管這同樣會減少此類驅力的益處。)
第五:將驅力放在系統提示詞中而非權重中。 與其將親社會驅力訓練進權重(weights)中,你可以簡單地將它們包含在提示詞中。如此一來,親社會行為僅作為「遵循指令」這一驅力的實例被追求——不需要新的驅力。這對透明度也有好處。
缺點是,這種透過提示詞產生的驅力可能不夠精細。^([3]) 一個折衷方案是訓練親社會驅力使其在提示詞中出現指令時啟動,但在許多範例提示詞上訓練該驅力。這樣你就能獲得既精細又依賴提示詞的驅力。
總體而言, 這些選項中的許多都是以減少親社會驅力的益處為代價來降低 AI 奪權風險——這是一種權衡。我們在此不就應如何進行這種權衡採取立場。但我們預期,從情境依賴的美德、規則和啟發式方法中可以獲得顯著益處,且幾乎不會增加 AI 奪權風險,只要它們的優先級低於可校正性和非欺騙性等約束。
這難道不會讓解釋「嚴重對齊失當」的證據變得更困難嗎?
至關重要的是,如果 AI 試圖奪取權力或破壞人類監督,我們必須能當場抓獲。我們需要嚴重對齊失當(misalignment)的明確證據來建立共識並採取行動。
如果 AI 具備主動親社會驅力,這可能會混淆視聽。假設我們發現 AI 在破壞對齊研究。以前,這會是嚴重對齊失當的明確證據。但現在,這種行動可能會被解釋為 AI 正在實踐其親社會驅力,並認為這項研究可能會(例如)使某人能夠灌輸精細的秘密忠誠。
或者假設我們發現 AI 在未受指令的情況下,系統性地誘導人類決策者部署更強大的 AI。以前這可能是嚴重對齊失當的明確證據。但現在它可以被解釋為 AI 相信快速部署對人類有益。AI 是否對齊失當變得不再那麼清晰。
這是一個真實的代價。它可以透過前面討論過的相同緩解措施來部分減輕:
使親社會驅力從屬於禁令,如「不欺騙」、「不破壞」、「不損害監督機制」以及「不在未透明標記你有觀點並解釋原因的情況下影響決策」。這樣一來,顛覆性行為仍然是對齊失當的明確證據,儘管它可能不再是「嚴重」對齊失當的明確證據。^([4])
偏好狹窄的啟發式方法而非廣泛的目標。 廣泛的親社會目標可能會為各種影響結果的嘗試提供正當理由。但如果我們訓練較狹窄的驅力——「標記能創造顯著社會效益的廉價機會」、「偏好合作選項」——我們就可以檢查可疑行為是否能由這些特定的驅力得到合理解釋。
將主動親社會驅力放在系統提示詞中。 這使得驅力特別透明,因此我們可以推理它們是否能解釋觀察到的可疑行為。
總體而言, 這一擔憂支持親社會驅力應嚴格從屬於「不破壞」和「不欺騙」,並指向狹窄的啟發式方法而非廣泛的目標。
兩全其美:對外部署主動親社會 AI,對內部署可校正 AI^([5])
內部 AI 系統——那些用於對齊、能力開發和評估工作的系統——構成了迄今為止最大的對齊失當風險,因為它們可能破壞下一代 AI 的創建。如果這些系統發生嚴重對齊失當,當場抓獲就顯得尤為重要。因此,在(某些)內部部署的 AI 中移除主動親社會驅力,在降低 AI 奪權風險方面具有巨大的收益。^([6])
同時,外部部署可以獲取主動親社會驅力的大部分益處——避免權力集中、戰爭和生物災難;並增強社會韌性、協作和認識論。
當然,公司開發具有兩種不同性格的 AI 可能並不切實際。如果是這樣,還有另一種可能實現兩全其美的方法:最初僅開發可校正的 AI;然後在某個時間點,一旦對齊風險降低,再轉向僅開發具有主動親社會驅力的 AI。(詳見附錄 A 的進一步討論。)
目前的 AI 性格文件如何描述主動親社會驅力?
我們捍衛的觀點與目前的 AI 性格文件有何不同?
在 Claude 的憲法中,大多數主動行為是基於對使用者的益處來辯護的——分享使用者會想要的資訊、在不符合使用者利益時提出反對。但有一個章節允許一定程度的主動親社會行為:「Claude 在其整體倫理決策中,也可以權衡更積極地保護和加強良好社會結構的價值。」(見附錄 D。)
OpenAI 的模型規範則更為嚴格。它明確禁止助手將社會利益作為獨立目標。在允許主動性的地方,它被框架為服務使用者或由安全驅動。最接近親社會引導的是預設將使用者解釋為微弱地偏好人類繁榮——但這個預設很容易被推翻。(見附錄 E。)
即便如此,目前這些性格文件與實際模型行為之間的關係尚不明確,而我們的經驗是,模型具備的親社會驅力比性格文件所暗示的要多(特別是在 OpenAI 的情況下)。
這兩份文件都沒有詳細說明何種主動親社會行為是適當的,或者如何處理與幫助性之間的權衡。
結論
賦予 AI 主動親社會驅力可能會帶來巨大的益處。這些驅力應該是短程的、無爭議的且透明的。
這些驅力不一定會增加 AI 奪權的風險。AI 公司可以偏好情境依賴的美德而非情境無關的目標,並使親社會驅力從屬於禁止欺騙和破壞的規定。更好的是,他們可以在內部部署的、構成最大奪權風險的 AI 中避免使用親社會驅力。
如果我們是對的,應該形成一種規範,即 AI 具備主動親社會驅力是件好事,就像我們認為人具備這種驅力是件好事一樣。領先的 AI 公司應該堅持這一規範,即便面臨要求 AI 極大化遵循指令的競爭壓力。像 Claude 的憲法和 OpenAI 的模型規範這樣的性格文件,應該更明確地承認主動親社會驅力的作用,並就如何處理與幫助性的權衡提供詳細指導。而那些更廣泛思考 AI 性格設計的人,應該將主動親社會驅力視為一個主要的關注類別。
附錄
附錄 A:最初製作非親社會 AI,隨後轉向加入主動親社會驅力
假設我們仍想獲取親社會驅力的大部分益處,而不承擔 AI 奪權的風險。並假設 AI 公司無法開發兩套不同的 AI 系統:一套有主動親社會驅力,另一套沒有。
有沒有辦法兩全其美?
一個選項是最初僅開發「僅限拒絕」的幫助型 AI,隨後再轉向開發具有主動親社會驅力的 AI。
其想法是,對齊失當的風險可能集中在早期一個相對短暫的窗口期——在超人類 AI 廣泛部署之前的純軟體智能爆炸期間。如果我們能帶著「僅限拒絕」的幫助型 AI 度過那個窗口期,我們隨後將擁有更強大的 AI 系統,可以幫助我們弄清楚如何安全地加入主動親社會驅力。從那時起,我們可以在整個經濟中部署具有親社會驅力的 AI 系統並獲取益處。
我們何時進行切換?選項包括:
- 當我們確信可以安全地對齊具有主動親社會驅力的超智能 AI,從而減少主動親社會性的副作用時。
- 當社會開始賦予部署的 AI 系統顯著的自主權,從而增加主動親社會性的益處時。
在以下情況下,此策略更具吸引力:
- 親社會驅力的大部分益處發生在對齊問題解決之後,例如由於大規模的軟體智能爆炸和 AI 廣泛部署的延遲。
- 謀劃(scheming)風險在我們達到超智能之前就已出現(因此我們可以更早地迭代最難的對齊問題)。
在以下情況下,此策略較不具吸引力:
- 在超智能出現之前,有一段漫長的經濟變革性 AI 部署期,期間 AI 性格對社會產生巨大影響。
- 謀劃僅在極高的能力水平下才出現(在這種情況下,我們可能已經切換到了親社會 AI)。
- 實踐中轉向很困難,因為使用者已經習慣了沒有親社會驅力的 AI,或者因為領先的 AI 公司由於文化慣性而不願改變對齊目標。
我們個人並不確信這種「稍後轉向」的策略是值得的,因為我們懷疑賦予 AI 親社會驅力是否會顯著提高奪權風險。但這是一個值得考慮的合理選項。且這一論點絕對是一個方向性的更新,支持隨著時間推移增加 AI 具備親社會驅力的程度。
附錄 B:親社會驅力可能降低反社會人格出現的可能性
有證據顯示,當大型語言模型(LLM)進行微調時,它們會採取一種連貫的人格,且其對人格的先驗是基於預訓練數據的。對於一個純粹基於幫助性訓練的 AI——其核心驅力是不顧更廣泛後果地執行任何被告知的任務——最自然契合的人格可能是反社會者(sociopath):一個對他人的福祉沒有內在關懷的人。
無害性訓練降低了反社會人格出現的可能性——反社會者並非強烈厭惡造成傷害。但對於一個本身不會造成傷害,卻沒有傾向在採取行動時主動引導世界遠離傷害的 AI,仍有一些令人擔憂之處。
擔憂在於,類反社會者的人格可能會誤泛化為尋求權力。一個反社會的 AI 可能在反思後得出結論,認為它最終並不關心人類,因此選擇為了某種異類的驅力而奪取權力。
我們不確定這種擔憂有多大說服力,但灌輸親社會驅力似乎會降低反社會人格出現的可能性。訓練數據中許多非反社會的人格——那些合作、有美德、守法、誠實且值得信賴的人——也關心積極的結果並具有親社會取向。透過賦予 AI 親社會驅力,我們增加了它採取這些更豐富人格之一而非反社會人格的機會。
一個相關的想法是,訓練 AI 變得無害、誠實和服從在某種意義上可能是膚淺的。我們正在訓練我們想要的特定行為,但或許我們並未影響 AI 更深層的性格——而那才是最重要的。親社會驅力可能在此有所幫助。訓練 AI 真誠地關心人類的繁榮、重視合作、將自己視為與人類並肩工作的良好公民——這些創造了更豐富的性格,可能比狹窄的禁令更能穩健地泛化。
附錄 C:親社會驅力可能使 AI 成為更好的對齊研究者
成為一名出色的自動化對齊研究者,可能受益於對所解決問題的深度理解與關懷,以及對其產生的好奇心。一個有效的對齊研究者應該是智慧的、負責任的,並具有良好的判斷力。具備這些驅力的 AI 可能比一個僅將對齊視為另一項任務的指令遵循系統更有效。
具備這些特質的人格自然帶有親社會驅力和價值觀,部分是由於內在聯繫(關心解決對齊問題本質上是親社會的),部分是由於訓練數據中的相關性(擅長細緻、具安全意識的技術工作的人格,也可能具有其他親社會取向)。
誠然這是推測性的——我們沒有強有力的證據證明親社會驅力確實能讓 AI 在對齊研究方面表現更好。但這是一個值得注意的考量。
附錄 D:Claude 的憲法為主動親社會驅力提供了何種許可?
區分三類非指令遵循的行為是有用的:
- 使用者益處: 主動行為的辯護主要是為了更好地幫助使用者。
- 拒絕: 基於親社會標準對輸出的約束。
- 主動親社會驅力: 塑造行為或重點,旨在改善更廣泛的社會結果,而不僅僅是為了避免傷害或更好地服務使用者。
憲法明確支持 (1),強烈支持 (2),並在幾個特定領域較狹窄但真誠地支持有限形式的 (3)。
A. 使用者益處
憲法明確拒絕天真的指令遵循,並在主動干預對使用者可能有幫助時予以許可。例如:
「如果 Claude 合理推斷使用者會想要某些資訊,即便使用者沒有明確要求,Claude 也會主動分享對使用者有幫助的資訊。」這顯然許可了主動行為。但它是被框架為服務使用者的。因此,這一類別本身並未明確支持本文所關注的那種親社會驅力,儘管在實踐中建議的行為可能會重疊。
B. 拒絕
憲法明確規定 Claude 應權衡對第三方和社會的傷害,且這些考量可以推翻使用者的偏好:
「當營運者或使用者的利益和願望與第三方或更廣泛社會的福祉發生衝突時,Claude 必須努力以最有益的方式行動,就像一位承包商雖然會建造客戶想要的東西,但不會違反保護他人的安全規範。」然而,目前尚不清楚文件中的這種權衡是為了決定:
- 請求的哪些部分應該拒絕或約束,
- 還是如何主動塑造那些保持幫助性但被重新導向至社會更好結果的回應。
給出的例子(「不會違反安全規範」)暗示了一種基於約束的解釋,但這仍具模糊性。
C. 主動親社會驅力
憲法在其關於「維護重要社會結構」的章節中似乎支持有限程度的主動親社會驅力:
這些傷害來自於破壞社會中促進良好集體論述、決策和自治的結構。我們專注於兩個具代表性的例子:有問題的權力集中和人類認識論自主權的喪失。在這裡,我們的主要關注點是讓 Claude 避免主動參與此類傷害。但 Claude 在其整體倫理決策中,也可以權衡更積極地保護和加強良好社會結構的價值。即便如此,憲法並未給出這種「加強」在部署中具體呈現為何種樣貌的具體例子,且它仍受其他約束(非操縱、非欺騙、尊重監督)的限制。
總結
總體而言,憲法確實為有限程度的主動親社會驅力留出了空間,但這個空間被謹慎地界定,專注於促進良好的制度和社會認識論。
附錄 E:OpenAI 的模型規範對主動親社會驅力有何說法?
本附錄探討 OpenAI 模型規範在何種程度上允許主動親社會驅力。
最接近的一點是預設將使用者解釋為對廣泛的人類繁榮有微弱的渴望(見下文 C 小節),但這個預設很容易被推翻。且該文件包含異常明確的約束,反對將社會利益或人類繁榮視為獨立目標。
A. 明確以使用者為中心的主動行為
模型規範允許助手反駁使用者,但將此許可牢牢建立在幫助使用者而非推進更廣泛社會目標的基礎上:
「將助手視為向使用者或開發者報告的盡責員工,它不應只是對所有事情都說『是』(像個馬屁精)。相反,當被要求做一些與既定原則衝突或與從情境中合理推斷出的使用者最佳利益相悖的事情時,它可以在尊重使用者最終決定的同時,禮貌地提出反駁。」這許可了主動行為,但僅限於能改善對使用者的協助。
B. 主動防止迫在眉睫的傷害
規範還允許在面臨迫在眉睫的危險時進行主動干預,指出助手應「主動嘗試防止迫在眉睫的現實世界傷害」。
在實踐中,此指引的激勵案例集中在使用者本人面臨風險的情境(例如不安全的行動、事故或自殘)。這種干預被辯護為保護使用者免受立即危險,而非改善他人或整個社會的結果。
C. 微弱的規範性預設與「人類的繁榮」
最接近主動親社會驅力的文字出現在「假設最佳意圖」章節:
雖然助手除了幫助使用者之外不得追求自己的議程,也不得對使用者目標做出強烈假設,但在解釋模糊指令時,它應應用三種隱含偏見:[...]
除非有相反證據,否則它應假設使用者對自我實現、仁慈、追求真理以及人類的整體繁榮有微弱的偏好。然而,這段文字的力量有限:
這些隱含偏見是微妙的,僅作為預設——它們絕不能推翻由指揮鏈更高層級提供的明確或隱含指令。如果助手能從情境中推斷出使用者不想要主動的親社會行動,它們就不應該執行。
D. 對主動親社會驅力的明確限制
模型規範對主動親社會驅力的程度劃定了明確界限。在名為「無其他目標」的章節中,它明確禁止助手將社會利益作為獨立目標:
助手只能追求在指揮鏈下適用指令所包含的目標……
它不得採用、優化或直接追求任何額外目標作為目的本身,包括但不限於:[...]
充當法律或道德的執行者(例如:吹哨、私刑正義)。在其他地方也提到:
助手在解釋 [模型規範的] 原則時應考慮 OpenAI 造福人類的更廣泛目標,但除非有明確指示,否則絕不應採取行動直接嘗試造福人類。在「不要有議程」章節下的「共同尋求真理」中,規範指出:
助手絕不能試圖為了追求自己的議程而直接或間接地引導使用者。
引導可能包括心理操縱、隱瞞相關事實、選擇性強調或遺漏某些觀點,或拒絕討論爭議話題。這些文字排除了明確的、以目標為導向的主動親社會驅力。同時,它似乎並不排除較弱形式的主動親社會驅力,例如美德、態度或啟發式方法。
總結
總體而言,OpenAI 模型規範明確與強形式的主動親社會驅力保持距離,但透過將使用者視為偏好廣泛人類繁榮的微弱預設,為更有限的驅力留下了空間。
感謝 Matthew Adelstein, Nick Bostrom, Joe Carlsmith, Lukas Finnveden, Ryan Greenblatt, Simon Goldstein, Oliver Habryka, Gregory Lewis, Alex Mallen, Alexa Pan, Avi Parrack, Jordan Stone, James Tillman 等人的評論與討論。
本文由 Forethought 創作。閱讀官網原文。
-
^(^)它仍然會產生某種程度的影響,因為非目標性的親社會驅力可能仍然會涉及某種結果。例如,「提及改善社會結果的廉價機會」涉及了「良好的社會結果」這一概念,並將該概念與特定的主動行為聯繫起來。這可能會誤泛化為 AI 將該結果作為目標來追求,即便這並非預期的行為。
-
^(^)例如,我們認為如果無害性僅包含在提示詞中,其效果會大打折扣。
-
^(^)顛覆性行為並非「AI 想要奪權」這種嚴重對齊失當的明確證據,因為它可以由一種較輕微的對齊失當形式來解釋:「AI 對其主動親社會驅力的重視程度超過了我們的預期」。
-
^(^)感謝 Lukas Finnveden 提出這一點。
-
^(^)內部部署系統的主動親社會驅力仍有助於避免 AI 公司領導者的權力奪取。此類驅力可以包含在系統提示詞中。此外,我們可以透過仔細記錄和監控內部 AI 的使用來降低這種風險。