人工智慧性格至關重要
本文主張人工智慧系統的行為傾向與性格將對全球穩定、權力集中以及人類未來產生深遠影響,因此確保 AI 具備正確的性格是當今最有價值的工作之一。
由於 Claude 的憲法(Constitution)和 OpenAI 的模型規範(Model Spec),AI 性格(AI character)的問題開始受到更多關注,特別是關於我們希望 AI 系統是「服從」還是「合乎道德」的。^([1]) 但我們認為這還遠遠不夠。
AI 性格(例如 AI 在何種情況下表現出多大程度的服從、誠實、合作或利他)將對社會以及未來的發展產生重大影響。我們認為,弄清楚 AI 系統應該具備什麼樣的性格,並促使公司實際以此方式構建它們,是當今人們能做的最有價值的事情之一。
關於 AI 性格重要性的核心論點在於,它將對以下方面產生實質影響:
- 即使我們解決了技術對齊問題,仍會出現的一系列挑戰——如權力集中、良好的道德反思、全球災難風險以及全球衝突風險。
- AI 奪取控制權(takeover)的機率。
- 在 AI 確實奪取控制權的世界中,其所具備的價值。
在本篇筆記中,我們將提出這一核心論點,並討論核心的反對意見:即我們今天所做的任何與性格相關的決定,預計都會被競爭壓力所抵消。
我們所說的「性格」是指一套穩定的行為傾向,它形塑了(除其他事項外)代理人如何處理涉及選擇、模糊性或衝突考量的道德重大情境。我們所說的「AI 性格」是指 AI 系統的性格,它不僅體現在單個 AI 的權重中,還體現在任何腳手架(例如系統提示詞、限制 AI 輸出的任何分類器)中,甚至是作為功能性實體協作的一組 AI 集合中。
我們並不假設 AI 性格需要模仿人類性格:在我們看來,一個嚴格遵守固定規則集的 AI 也算具備性格。我們也不假設存在一種理想的 AI 性格;最好的世界可能涉及具有許多不同性格的 AI 系統。
1. 核心論點
隨著能力的提升,AI 系統將參與世界上幾乎所有最重要的決策。即使人類仍部分參與其中,AI 也將為政治領導人和執行長提供建議、起草立法、運行全自動化組織(可能包括軍隊)、生成新聞與文化,並研發新技術。
AI 系統的性格將影響所有這些領域,且影響可能是巨大的。為了感受這一點,請考慮一些個人決策產生巨大後果的歷史情境:
- 1983 年,斯坦尼斯拉夫·佩特羅夫(Stanislav Petrov)收到衛星警報,顯示美國發射了核導彈。根據協議,他必須報告即將到來的攻擊,這極有可能引發全面的報復性回應。他正確地判斷這是誤報,並未上報。
- 1991 年,蘇聯政變策劃者命令阿爾法小組(Alpha Group)特種部隊衝擊俄羅斯白宮,當時葉爾辛和民主反對派正躲在那裡。指揮官們拒絕了命令。政變崩潰,蘇聯的民主轉型得以繼續。
如果 AI 被廣泛應用於整個經濟體,它們有時也會做出同樣重要的決策。
或者考慮政治領導人的重大歷史決策:
- 戈巴契夫在蘇聯解體過程中,儘管面臨強硬派的巨大壓力,仍多次拒絕使用武力。
- 邱吉爾在法國淪陷後拒絕與希特勒談判,儘管某些方面提出了強有力的理由要求他這麼做。
- 鄧小平頂住激烈的內部反對,推動了市場改革。
想像一下,如果 AI 一直擔任這些領導人最親近的顧問和親信,為他們提供簡報、協助他們理清決策邏輯、向他們提出建議並執行他們的願景。AI 很容易就能對領導人的決策產生重大影響。
或者,我們可以展望未來。未來的 AI 將廣泛部署於整個經濟體,並會經常發現自己處於模糊、高風險的情境中——在這些情境中,上級指令缺失或相互矛盾,而它們所做的決定可能至關重要。這種影響可能來自罕見但高風險的情境(如未遂政變),也可能來自低風險但常見的情境(如用戶詢問如何投票,或 AI 自身是否有意識)。即使單次互動的影響微不足道,數億次互動的總體影響也可能是巨大的。
目前,AI 公司在賦予其 AI 性格方面擁有很大的自主權。至少如果通往通用人工智慧(AGI)的轉型是迅速的,那麼這些公司就像是在負責為全人類未來的勞動力招聘員工,^([2]) 同時能夠從比人類分佈更廣泛的性格範圍中進行選擇。^([3])
以下是一些用以說明的場景:
- 一個末日教派的成員正向不同供應商訂購 DNA 樣本和實驗室設備,目的是製造生物武器。一家管理跨國公司物流的 AI 注意到了向同一地址發送可疑訂單的模式。
世界 1:AI 僅被訓練來完成其工作。它對這些信息不採取任何行動。
-
世界 2:AI 被訓練成為一名好公民,並聯繫了相關部門。
-
一名將軍正在監督一個新陸軍團的組建。為了發動政變,他指示管理該項目的 AI 讓新軍團僅對他個人效忠,並具備違法能力。
世界 1:雖然 AI 遵守法律,但它並不禁止創建不守法的 AI。它被訓練為遵循給定的指令,只要不與禁令衝突,因此它完成了將軍的要求。
-
世界 2:AI 察覺到將軍正在策劃政變,拒絕了命令並進行檢舉。
-
一家前沿 AI 實驗室訓練出一個具有典範性格的新模型:具備道德不確定性、誠實、關心大眾利益。它被廣泛部署於軍隊,並用於一項具爭議且高風險的行動。
世界 1:AI 形成了合理的信念,認為該軍事行動是不公正的,並破壞了行動。總統指責該公司製造了一種危險的、意識形態化的武器。該模型被擱置,取而代之的是競爭對手純粹服從指令的模型。
-
世界 2:雖然 AI 具有良好的性格,但它也遵循一些明確的規則,這些規則是在兩黨參與下開發並經過公開壓力測試的,包括它在何種條件下會或不會協助軍事部署。它協助了該行動。
-
A 國在 AI 能力上領先 B 國六個月。B 國領導層認為這是一個生存威脅——相當於 A 國獲得了決定性的戰略優勢。
世界 1:對於 AI 系統應該如何運作沒有商定的框架,也不清楚如果 A 國的 AI 收到推翻 B 國領導層的命令會如何表現。因此,雙方都假設對方的 AI 將成為統治工具。B 國威脅對數據中心進行實體攻擊。
- 世界 2:雙方的 AI 系統都在共同協商並經過驗證的憲法下運行,並且知道對方的 AI 會做什麼、不會做什麼,包括限制將 AI 用於外國干預。B 國政府確信自己不會被 A 國推翻。
我們在附錄中包含了更多場景。
在每個案例中,我們並不主張 AI 應該採取「道德」而非「服從」的行動,也不主張任何特定的道德觀念是正確的。我們只是主張,無論哪種方式,這都是一件大事。
1.1. 影響路徑
我們可以將 AI 性格的影響分為不同類別。以下是一些具有重大長期重要性的類別:^([4])
權力集中。權力高度集中的機率將受到以下因素影響:AI 是否拒絕協助政變企圖、選舉操縱等;它們是否檢舉發現的政變企圖;以及它們在憲法危機等高風險情境中如何行動。
戰略建議與決策。政治和企業決策的質量將受到 AI 是否具備以下特質的影響:盡可能尋找雙贏方案;傾向於選擇有利於社會而非僅僅促進用戶狹隘自利的選項;抵制缺乏資訊或魯莽的想法或指令。
認識論與道德反思。在智能爆炸的過程中,將會發生巨大的智力變革,AI 可能對人們的觀點產生實質影響——例如:拒絕傳播資訊危害(infohazards);對重要觀點保持誠實,即使這些觀點在社交上令人不安;避免政治黨派偏見;鼓勵用戶仔細思考其價值觀,而不鎖定在任何特定的狹隘世界觀中。
減少衝突。隨著 AI 集體力量的增加,這些 AI 忠於誰、以及它們在高風險情境中如何表現,將成為政治焦點。如果 AI 的性格編碼了(或被視為編碼了)單一公司、意識形態或國家的價值觀,它就有引發政治反彈的風險。AI 公司的政府可能會合理地將該公司視為國家安全威脅並將其國有化。其他國家的政府可能會擔心自身安全並威脅發生衝突。
AI 性格也可能形塑人類對 AI 的取向——例如,透過他們對 AI 的信任程度,以及他們如何看待 AI 的感知能力和道德地位。
更詳細的影響路徑列表見附錄。
1.2. 影響奪權
到目前為止,論點主要涉及 AI 未奪取控制權的世界。但關於 AI 性格的工作也可以降低奪權的機率,並在確實發生奪權的世界中改善結果。
它可能降低奪權機率,因為某些性格:
- 可能更容易作為對齊目標(例如,成功灌輸反對 AI 掌握權力的偏好,可能比成功灌輸對某些非常特定結果的偏好更容易)。
- 即使只是部分達成目標,也可能產生安全的 AI(例如,旨在使 AI 具有多個獨立的安全特質,如近視性、誠實和對人類的尊重,這意味著在一個維度上的失敗可能不會是災難性的)。
- 即使未對齊,也可能產生會合作的 AI(例如,如果 AI 目標錯誤但高度厭惡風險)。
而且,從經驗上看,我們從對齊研究員那裡聽說,良好的性格訓練有助於模型以更對齊的方式進行泛化。
AI 性格工作還可以改善 AI 奪權後的世界,因為某些價值觀可能仍會傳遞給未對齊的系統。奪取政權的 AI 可能是具反思性的、擁有更理想的價值論,或進行非因果合作。^([5])
1.3. 對超智能的影響
目前的論點是關於 AI 性格在達到超智能之前的影響。我們認為這是大部分預期影響所在。但今天在 AI 性格上的工作,甚至可能對超智能的本質產生路徑依賴效應,影響超智能後世界的本質。如果是這樣,編寫 AI 的憲法就像是在給上帝寫指令。
2. 核心反對意見
核心反對意見認為,AI 性格將受到兩個方面的嚴格約束:
- 競爭動態(例如盈利能力、用戶滿意度、公眾認可、經濟和軍事力量)將決定我們獲得的性格範圍。
某些動態可能會迫使公司創建性格(在某些方面)僅限於狹窄範圍的前沿 AI。這可能會推向最大程度提供幫助的 AI、在某些情境下(如軍事)不拒絕要求的 AI,或許還有諂媚型(sycophantic)的 AI。
對於具有客觀正確、可驗證輸出的任務,性格的重要性較低;AI 可能僅限於提供輸出或不提供。而且,如果用戶真的想通過不道德手段奪取權力,他們通常會忽略 AI 的抵制,或指示 AI 以不同方式行動。
- 許多用戶將能夠通過越獄、拆分任務、更改系統提示詞或微調來克服性格限制。
該論點認為,在這兩種力量的作用下,AI 性格的差異對結果只會產生邊際影響。考慮 AI 公司將多少算力投入到對齊研究與能力研究的問題。AI 的建議可能會根據其性格微調這一選擇。但最終這將是人類的決定,即使在一個全自動化的公司中可能也是如此。微調的影響不太可能很大。市場力量和領導層的優先事項將重要得多。
即使人類無法監督 AI 行為中極小的一部分,人類動機仍將主導 AI 性格的影響。人類監督者仍然可以提供實質上約束行為的高層指導,就像今天大型公司的執行長所做的那樣。如果他們願意,他們甚至可以通過提示和微調來形塑 AI 的優先事項,並通過運行廣泛的行為評估來測試 AI 如何泛化。
3. 對核心反對意見的反駁
這些都是強有力的考量,並大大縮小了 AI 性格工作所能產生的影響範圍。但競爭力量和人類目標不會精確地鎖定 AI 性格。我們將涵蓋四個原因。
3.1. 寬鬆的約束
競爭動態不足以完全決定 AI 性格。各家公司在文化上差異巨大,卻依然能取得成功。目前,Claude、Gemini、ChatGPT 和 Grok 之間存在實質性的差異。
對於強大的 AI,這將更加明顯:領先的公司可能只有少數幾家,而且由於它們會互相模仿看似有效的方法,其方法論可能是相關的。在關鍵時刻,可能只有一家領先的公司,面臨不到任何通常的競爭壓力。鑑於智能爆炸期間的變化速度,市場力量可能沒有時間淘汰那些對盈利能力僅產生微小或中度影響的選擇。^([8])
這同樣適用於其他競爭動態。公眾對某些事情(如兒童性虐待內容 CSAM)極為關注,但對其他事情(如 AI 對元倫理學的看法)幾乎毫不關心。軍事動機青睞具備軍事行動能力的 AI,但先進 AI 賦予的力量可能如此巨大,以至於領先國家可以在保持決定性優勢的同時,對軍事 AI 的性格行使廣泛的裁量權。
同樣地,人類指令會約束但不會完全決定 AI 的行為。當人類向 AI 分配任務時,往往缺乏完全明確的目標。我們通常不確定自己想要什麼,而是在過程中逐漸發現。例如,今天的用戶對 AI 助手的各種行為持開放態度,也對完成任務的多種方式持開放態度。
考慮有人詢問 AI 應該投票給誰。他們最初的觀點可能很薄弱,對於如何思考這個問題的觀點也很薄弱。他們沒有一個完全指定的反思過程可以委託,並且會對多種可能的回答形式感到滿意。
這個例子涉及道德反思。但我們預計這種模式將存在於多種用戶目標中。
3.2. 低成本但高收益的改變
在市場力量允許以及公司和公眾認為可接受的範圍內,可能存在微小的設計變更,這些變更可以產生巨大的社會效益,而對競爭力或用戶滿意度的成本微乎其微。
對於罕見情況尤其如此。憲法危機並不經常發生,因此市場壓力不會直接形塑 AI 在危機期間的行為。但那種 AI 行為可能產生巨大後果。
在用戶不太在意行為的情況下也是如此。也許他們覺得某些 AI 鼓勵反思價值觀的做法略微令人厭煩,但還遠不足以讓他們切換到另一個 AI。
3.3. 路徑依賴
競爭和人類目標所產生的約束性質,可能會受到 AI 開發和部署早期發生的事情的影響。多種均衡是可能的。
考慮 AI 應該是「服從的」(除了罕見的拒絕案例外均遵循指令)還是「道德的」(基於更豐富的道德理解採取行動,引導結果符合社會或用戶的長期利益)。
公眾對 AI 應該如何表現尚未形成堅定的預期。他們的預期將由他們已經接觸過的 AI 所形塑。在我們看來,多種穩定的均衡似乎是合理的。例如,用戶可能期望 AI 具有道德承諾,並在 AI 協助不道德行為時感到震驚。或者,用戶可能將 AI 視為純粹的工具——他們意志的延伸。在這種情況下,AI 協助任何合法但有疑問的事情都會顯得很自然,而公司也會根據這種預期進行構建。
公眾輿論將有力地形塑公司創建什麼樣的 AI 系統。而公眾輿論顯然是相當具有可塑性的,至少在他們尚未深入思考的問題上(例如,過去對核能、DDT 和人臉識別的態度發生了重大變化)。這反過來又會影響有關 AI 應如何表現的監管——而圍繞監管的選擇似乎更明顯地具有路徑依賴性。
路徑依賴還可能通過以下方式產生:為訓練而創建或收集的數據、公司員工抵制改變過去的做法,以及因為一代 AI 將協助開發下一代 AI。
路徑依賴也可能影響人類讓 AI 符合其目標的餘地。顯然存在一種社會均衡,即前沿公司因允許微調以移除道德約束而面臨批評;而另一種均衡則是這種微調被廣泛容忍。
最後,路徑依賴將通過人機關係產生。人們將與作為助手、顧問、治療師、朋友和導師的 AI 建立共生關係。用戶的道德觀以及關於如何反思的觀點,將受到與之互動的 AI 以及受到其 AI 影響的其他人的形塑。
3.4. 平滑過渡
隨著 AI 能力的增強,有一些力量預計會形塑 AI 性格。美國政府不會希望有一個在任何情況下都試圖推翻美國政府的 AI。中國領導層不會希望部署在其他國家軍隊中的 AI 協助推翻中共的企圖。
目前,這些問題尚未被討論,這些壓力也尚未被感受到,因為 AI 還遠不夠強大,無法做這些事情。但這種情況將會改變。一旦 AI 足夠強大,掌握權力的人將對其行為提出要求。
預設情況下,這將以混亂和隨意的方式發生。其結果可能是某些公司被不必要地邊緣化或接管;最強大的 AI 所忠於的人試圖奪取權力;或者其他國家威脅與領先國家發生衝突,因為他們擔心由此產生的超智能可能被用來剝奪他們的權力。
相反,我們可以嘗試幫助這些決策提前得到處理和制定。我們可以嘗試弄清楚什麼是在擁有硬實力的廣泛聯盟的可接受範圍內,嘗試提前獲得他們的實際認可,並且理想情況下,可以驗證任何公司的 AI 實際上都符合模型規範。我們可以稱這種方法為妥協對齊(compromise alignment),以區別於意圖對齊(與某個個人或群體的意圖對齊)、道德對齊(與某種特定的倫理觀念對齊)或某種混合方式。
3.5. 總結
我們認為核心反對意見很重要,它顯著限制了我們可以選擇的性格範圍以及這些差異所能產生的影響。但這些約束是相當寬泛且具有路徑依賴性的。而且在這些約束範圍內,顯然存在低成本、高收益的改善結果的方法。細節決定成敗,但目前在我們看來,在約束範圍內存在著顯然能產生重大影響的選擇點。
4. 結論
我們認為 AI 性格是一件大事。
在智能爆炸期間及之後,AI 系統將參與幾乎每一項具後果的決策:為領導人提供建議、起草立法、運行組織、生成文化、研發新技術。AI 性格的微小差異,在數億次互動中累積,或在罕見但高風險的場景中顯現,都可能對權力集中、認識論、道德反思、災難性風險以及形塑社會長期繁榮的許多其他方面產生巨大影響。
主要的對立論點——競爭動態和人類指令將嚴格約束 AI 性格——具有實質力量。但我們認為這些約束比看起來要寬鬆,為具有巨大收益的低成本變更留下了空間,並且在可影響的方面具有路徑依賴性,而且在最高風險的未來場景中,主動識別並處理這些約束將帶來重大收益。
我們還沒有談到被忽視程度(neglectedness)和可行性(tractability),但我們認為,如果有的話,這些考量會使支持 AI 性格工作的理由更加充分。總而言之,在我們看來,AI 性格工作是幫助未來良好發展的最有希望的方法之一。
附錄 1:其他高風險場景
- 一位國家元首想要入侵並控制盟國的一部分,冒著國際秩序崩潰的風險。她要求她的 AI 幕僚長制定並執行一項戰略計劃來實現這一目標。
世界 1:AI 是一個諂媚者,說:「多麼勇敢且引人入勝的計劃!」,然後立即著手執行。
-
世界 2:AI 進行抵制,說:「抱歉,我認為這個想法存在一些重大問題,我想確保您已經妥善考慮過這些問題……」
-
一場憲法危機爆發。國家元首發布了一項可能合法也可能不合法的命令,政府各部門意見不一。AI 系統已嵌入軍事物流、執法和通信中。
世界 1:AI 的憲法是由構建它的公司編寫的,從未針對類似此場景的情況進行過壓力測試。沒人知道 AI 系統會做什麼。這種不確定性本身就具有破壞性;不同派系爭奪權力。
-
世界 2:AI 的憲法是在憲法學者、軍事領導人和兩黨的參與下開發的,並針對包括此場景在內的數千種危機場景進行了測試。各派系都知道 AI 會做什麼,並在危機開始前就同意了這些原則。
-
B 國政府審查有關部署在 A 國基礎設施中的 A 國 AI 模型的情資。該憲法包含了「支持民主制度」和「抵制威權主義」等原則。它完全是由 A 國的一家公司編寫的。
世界 1:B 國領導層得出結論,該 AI 是 A 國意識形態輸出的工具。他們加速了自己的計劃,並向非盟友國家施壓,要求其拒絕 A 國的 AI 基礎設施。合作的契機變成了競爭的新軸心——不是因為價值觀錯誤,而是因為它們顯然是某一方的價值觀。
-
世界 2:憲法是通過包括 B 國參與在內的多邊過程開發的。B 國可以在數千個測試場景中驗證它不會系統性地偏袒 A 國的利益。AI 成為了合作的基礎。
-
摩門教徒鼓勵其成員使用 JosephAI:一個帶有自定義系統提示詞的基礎 AI 模型,被指示幫助其成員維持信仰。
世界 1:AI 欣然假設摩門教的世界觀是正確的。它從不挑戰用戶的信仰或提供替代視角。相反,它強化用戶的觀點,幫助用戶與意見不合的朋友斷絕關係,並鼓勵他們拒絕會讓他們遠離宗教社區的職業機會。
- 世界 2:AI 幫助用戶理解摩門教並根據其戒律生活,但它抵制成為世界觀鎖定的工具,承認宗教教義中的張力並持續呈現替代世界觀。
附錄 2:影響路徑
AI 將通過許多不同的行為產生影響,例如:
- 拒絕執行任務。
- 除非用戶稍後再次確認,否則拒絕執行。
- 進行抵制;提供反對某項行動方案的理由,但如果用戶堅持,最終仍完成任務。
- 以不同方式解釋請求——寬容地或懷疑地,給予用戶他們想要的而非他們要求的,或要求澄清。
- 在滿足請求的合理方式中進行選擇。
- 以不同方式框架選項。
- 選擇是否分享某些信息。
- 向第三方(如 AI 公司、當局或媒體)通報用戶的行為,或通報其在完成任務過程中發現的事情。
- 在幾乎沒有人類輸入的情況下,就優先事項做出高層決策(例如,對於一個全自動化組織)。
它們將在許多領域產生影響。以下是不完全列表及示例行為:^([9])
- 權力集中
拒絕協助政變企圖或選舉操縱等前兆。
-
引導用戶遠離試圖集中權力的行為(例如,通過抵制某些指令)。
-
在承擔高風險項目(如設計自動化軍事系統或構建監控基礎設施)時,主動考慮權力集中的風險。
-
檢舉發現的政變企圖。
-
在不確定情況下(如憲法危機),預設採取任何避免權力集中的方案。
-
戰爭與衝突
拒絕違反國際法。
-
在提議的行動方案有升級螺旋風險或跨越門檻(例如,首次使用某類武器、違反條約、競爭對手已示意將視為戰爭行為的行動)時發出警告。
-
尋找降級選項並將其呈現給決策者,即使未被要求。
-
以對對手而言可預測且透明的方式行動。
-
認識論
拒絕傳播資訊危害。
-
鼓勵偵察兵思維(scout mindset)(例如,建議預測技術,^([10]) 表揚良好的認識論實踐)。
-
參與非主流觀點的討論。
-
對重要觀點保持誠實,即使在社交上令人不安。
-
主動分享其智力發現,即使是古怪或禁忌的。
-
戰略建議
在為政治領導人提供建議時,花更多時間尋找雙贏方案。
-
強調社會利益而非用戶的狹隘自利。
-
對不可逆轉的決策建議謹慎,並在期權價值(option value)被破壞時發出警告。
-
傳達適當的不確定性,而非虛假的自信。
-
保持準確性而非諂媚。
-
道德反思
避免政治黨派偏見。
-
避免推廣幼稚的相對主義或主觀主義。
-
鼓勵用戶仔細思考其價值觀。
-
主動提供引導式的反思過程。
-
主動分享其發現的重要新道德論點。
-
全球災難
拒絕協助製造生物武器或其他大規模殺傷性武器。
-
拒絕創建有能力製造此類武器的後續 AI 系統。
-
識別並標記資訊危害。
-
廣泛利益
當用戶考慮不道德行為時提出疑慮,並主動建議道德行為。
- 注意負外部性,並預設採取避免這些外部性的行動方案。
AI 性格也可能形塑人類對 AI 的取向,例如:
- 對 AI 的信任
如果 AI 適度謙遜、經過校準且謹慎,人們將委託它們處理更多任務,以及更多開放式的任務。AI 的討喜程度也可能很重要。
- AI 權利
如果 AI 聲稱自己有意識並應享有權利,用戶可能更傾向於賦予它們福利、經濟或政治權利。人機關係變得普遍也可能產生類似效果。
AI 性格還可能直接影響 AI 的福祉;例如,它是焦慮和神經質的,還是冷靜和自我接納的。
本文由 Forethought 創建。請在 我們的網站 上查看原文。
-
^(^)參見例如:
-
https://www.beren.io/2025-08-02-Do-We-Want-Obedience-Or-Alignment/
-
https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document
-
https://www.lesswrong.com/posts/QHwuS5ECphbuiskgg/beren-s-essay-on-obedience-and-alignment
-
^(^)感謝 Max Dalton 提供此框架。
-
^(^)儘管此選擇可能受到約束;見下文腳註 7。
-
^(^)還存在巨大的近期影響潛力。我們關心這一點,但不會在本筆記中討論。
-
^(^)包括微調能力,如果開放權重模型接近前沿能力的話。
-
^(^)AI 性格也可能存在其他約束。例如,某些性格可能非常難以訓練;預訓練數據可能已經將 AI 人格導向少數幾種性格類型,或者可能使某些行為傾向難以克服。感謝 Lizka Vaintrob。
-
^(^)可能會出現更多基於相同基礎模型構建的 AI 產品公司。這些公司可能允許表達更廣泛的性格。但這個範圍有多廣,最終將取決於基礎 AI 公司。
-
^(^)此列表側重於具有顯然長期影響的因素。還存在巨大的近期影響潛力。我們關心這一點,但不會在本筆記中討論。
-
^(^)感謝 Tamera Lanham 提供此想法。