我們需要以福祉為基礎的 AI 正面願景

The Gradient·超過 1 年前

想像你自己身處十年前，直接跳進現在與能創作圖像、編寫程式碼和辯論哲學的百科全書式 AI 自然對話的衝擊中。這項技術幾乎肯定會改變社會，而 AI 至今對我們的影響難道不是好壞參半嗎？

前言

想像一下十年前的自己，直接跳進現在這個能與百科全書般的 AI 自然對話、讓它創作圖像、編寫程式碼並辯論哲學的震撼中。這項技術難道不會幾乎肯定地改變社會嗎？而 AI 迄今對我們的影響難道不是好壞參半嗎？因此，現今有這麼多對話圍繞著一個定義時代的問題也就不足為奇了：我們如何確保 AI 造福人類？ 這些對話往往會演變成對 AI 極端的樂觀或悲觀，而我們真誠的目標是走一條務實的中間道路，儘管毫無疑問我們無法做得盡善盡美。

雖然隨口談論「有益的 AI」（beneficial AI）很時髦，且我們許多人都想為其發展做出貢獻，但在實踐中要具體界定什麼是有益的 AI 並不容易。這篇文章代表了我們試圖揭開有益 AI 神秘面紗的嘗試，將其根植於個人的福祉（wellbeing）與社會的健康。藉此，我們希望促進 AI 研究與產品造福人類繁榮（flourishing）的機會，並在此過程中分享我們對 AI 即將到來的影響的思考方式，這些思考方式促成了我們的結論。

大局觀

從職業背景來看，我們與 AI 的距離比與那些最常討論人類繁榮的領域（如福祉經濟學、正向心理學或哲學）更近。在尋找這些領域與 AI 技術世界之間生產性聯繫的旅程中，我們發現自己經常感到困惑（究竟什麼是人類繁榮或福祉？），並因困惑而停滯不前（也許無能為力？這個問題太過多樣且分散）。我們想像其他旨在創造親社會技術的人可能也有類似的經歷，因此希望在這裡能從困惑中照亮一條部分路徑，通往一個有許多有趣且實用工作可做的境地。我們首先提出一些主要結論，然後在後續內容中深入探討細節。

我們得出的一個結論是：無法對人類福祉給出定論性的定義也沒關係。 哲學家、經濟學家、心理治療師、心理學家和宗教思想家對此爭論多年，至今尚無共識。與此同時，大家對許多讓生活更美好的具體因素是有共識的，例如：支持性的親密關係、有意義且投入的工作、成長感與成就感，以及積極的情緒體驗。此外，大家也清楚地認識到，除了暫時性的福祉，我們還必須考慮如何確保並改善跨越數年乃至數十年的福祉——透過我們所謂的「社會基礎設施」：如教育、政府、市場和學術界等重要制度。

這種福祉視角的一個好處是讓我們意識到一個近乎悖論的事實：雖然我們物種所做的幾乎每一件事背後的深層目的都是為了福祉，但我們卻悲劇性地忽視了它。無論是從個人福祉的常見衡量標準（自殺率、孤獨感、有意義的工作），還是社會福祉（對制度的信任、共同的現實感、政治分歧）來看，我們都做得不好，而我們的印象是 AI 參與了這種衰退。然而，這種福祉觀點的核心益處在於洞察到：沒有任何根本障礙能阻止我們將福祉科學與機器學習結合，以實現集體利益。

這引出了我們的第二個結論：我們需要對擁有強大 AI 的社會提出基於福祉的、可信的積極願景。 與以往的變革性技術一樣，AI 將衝擊我們的社會基礎設施——無論我們是否願意，它都會劇烈改變我們日常生活的性質。例如，Facebook 僅在二十年前推出，但社交媒體的衝擊波已經顛覆了社會的許多方面——破壞了新聞媒體和我們的資訊公地，讓我們對「讚」成癮，並用空殼取代了有意義的人際連結。我們相信強大 AI 的影響將超過社交媒體。因此，至關重要的是，我們要努力探索、構想並邁向一個我們能在其中繁榮發展的、充滿 AI 的世界——在那個世界裡，AI 或許能振興我們的制度，賦予我們追求最有意義事物的能力，並幫助我們培養人際關係。這並非易事，需要想像力、務實精神和技術可行性——以某種方式穿梭於以往技術批判所揭示的雷區。然而，如果我們想主動塑造未來，現在就是夢想與建設的時候。

這銜接到我們的最後一個結論：基礎模型及其未來部署的軌跡至關重要。 即使是我們這些身處該領域核心的人，也很難內化模型進步的速度之快，以及再過幾年它們會變得多麼強大。回想一下，GPT-2——按今天的標準來看幾乎無法運作——是在 2019 年 才發布的。如果未來的模型比現在強大得多，並能以更大的自主權勝任地參與更多世界事務，我們可以預見它們與我們生活和社會的糾纏將直線上升。因此，我們至少希望讓這些模型能夠理解我們的福祉以及如何支持它，這可能透過新的演算法、基於福祉的模型評估和福祉訓練數據來實現。當然，我們也希望在實踐中實現人類利益——本部落格文章的最後一部分強調了我們認為實現這一目標的強大槓桿點。

本文的其餘部分將詳細描述：(1) 我們所說的造福福祉的 AI 是什麼意思，(2) 對基於福祉的 AI 積極願景的需求，以及 (3) 協助開發與部署服務於此類積極願景的 AI 的具體槓桿點。我們設計這篇文章時，各個部分基本上是獨立的，因此如果您對具體的研究方向最感興趣，請隨時跳轉到該部分。

有益的 AI 根植於人類福祉

關於 AI 造福人類的討論通常格調很高，但缺乏具體的可操作性，例如「我們應該確保 AI 為人類服務」這種無可爭辯但缺乏實質內容的話語。但要在 AI 或政策中有效落實這些想法，需要足夠的精確度和清晰度，以便將其轉化為程式碼或法律。因此，我們著手調查科學界關於人類利益根源的發現，作為能夠透過 AI 衡量並支持它的第一步。

通常，當我們思考有益影響時，我們會關注民主、教育、公平或經濟等抽象支柱。然而，無論多麼重要，這些都不是內在價值的。我們關心它們是因為它們如何影響我們短期和長期的集體生活體驗。我們關心增加社會 GDP 的程度，取決於它是否與我們生活和未來的實際改善相符；但當它被視為目的本身時，它就與真正重要的事情脫節了：即改善人類（以及潛在的所有物種）的體驗。

在尋找最直接研究人類繁榮根源的領域時，我們發現了關於福祉的科學文獻。這些文獻浩如煙海，橫跨多個學科，每個學科都有自己的抽象概念和理論——而且正如你所料，對於福祉究竟是什麼，並沒有真正的共識。在深入研究繁榮哲學、福祉經濟學或人類福祉的心理學理論時，會遇到許多有趣、引人入勝但看似不相容的想法。

例如，哲學中的享樂主義理論認為，快樂和消除痛苦是福祉的核心；而慾望滿足理論則認為，福祉在於我們慾望的實現，無論我們情感上感覺如何。關於衡量主觀福祉（廣義上指我們對生活的體驗和感受）有豐富的文獻，也有許多關於哪些變量表徵繁榮的不同框架。例如，馬丁·塞利格曼（Martin Seligman）的 PERMA 框架認為福祉由積極情緒、投入、人際關係、意義和成就組成。有些理論認為福祉的核心是滿足心理需求，如自主感、勝任感和歸屬感。其他理論則認為福祉來自於依價值觀生活。在經濟學中，框架與哲學和心理學相似，但差異足以使精確的橋接變得複雜。例如，福祉經濟學運動主要關注主觀福祉，並探索許多不同的替代指標，如收入、人際關係質量、工作穩定性等。

在調查了這麼多有趣的想法後，興奮感開始消退，或許不足為奇的是，我們對「正確的理論」究竟是什麼仍然感到根本性的困惑。但是，我們意識到，事實上 在福祉問題上，人類一直處於這種境地，正如缺乏一個無可爭辯的繁榮理論並未阻止人類在過去實現繁榮一樣，它也不應成為有益 AI 的根本障礙。換句話說，我們引導 AI 支持人類繁榮的嘗試必須認真對待這種不確定性，就像所有支持繁榮的複雜社會努力必須做的那樣。

最終，我們得出了一個簡單可行的理解，與福祉經濟學的觀點相去不遠：人類利益最終必須根植於 人類的活生生體驗。我們想要過上快樂、有意義、健康、充實的生活——而不難想像 AI 可以協助實現這一目標的方式。例如，開發低成本但精通的 AI 教練、幫助我們自我反思的智能日記，或幫助我們尋找朋友、浪漫伴侶或與親人聯繫的應用程式。我們可以將這些努力根植於文獻中雖不完美但可行的福祉衡量標準（如 PERMA），並將地圖（福祉衡量）不等於疆域（實際福祉）以及人類自身不斷探索和完善其福祉願景視為 首要考量。

更廣泛地說，我們的福祉依賴於一個健康的社會，我們不僅關心自己的生活，也希望鄰居、社區、國家和世界擁有美好的生活，並希望我們的子孫後代也能如此。社會的基礎設施（如政府、藝術、科學、軍事、教育、新聞和市場等制度）正是支持這種更廣泛、更長期福祉願景的力量。

這些制度在社會中都扮演著重要的角色，我們也可以想像 AI 支持或改善它們的方式；例如，生成式 AI 可能透過個人導師催化教育，幫助我們發展更豐富的世界觀；可能透過篩選政治家的實際作為，幫助我們更好地追究其責任；或者透過幫助研究人員建立新穎的聯繫，加速有意義的科學研究。因此，簡而言之，有益的 AI 將在短期和長期意義上，有意義地支持我們對值得過的生活的追求。

於是，從衝突宏大理論的高深困惑中，我們得出了一些聽起來更像是常識的東西。然而，讓我們不要認為這是理所當然的——它穿透了抽象概念的雜質，堅定地重新聚焦於最終重要的事情：人類的心理體驗。這種觀點指引我們關注那些既有科學支持，又可以透過 AI 變得可衡量和可操作的福祉要素（例如，已經存在衡量其中許多要素的工具）。此外，跨越短期和長期的福祉提供了一種共同語言，橋接了有益 AI 的不同方法，無論是減輕AI 倫理社群關注的歧視等社會傷害，還是嘗試透過 AI 驅動的審議來重振民主，或是創造一個人類生活更有意義的世界，或是創造低成本的情緒支持和自我成長工具，或是降低 AI 帶來的生存風險，或是利用 AI 重振我們的制度——福祉是最終的根基。

最後，關注福祉有助於凸顯我們目前的不足。目前的 AI 發展是由我們現有的激勵系統驅動的：利潤、研究新穎性、參與度，而很少明確關注根本上更重要的事情（人類繁榮）。我們需要找到切實可行的方法，將激勵機制轉向支持福祉的模型（我們稍後會討論這一點），以及邁向積極的方向（接下來討論）。

我們需要對 AI 有積極的願景

技術是一股強大得令人震驚的社會力量。雖然幾乎所有新技術帶來的變化都有限（如改良的牙刷），但有時它們會顛覆世界。就像寓言中被慢火煮的青蛙一樣，我們忘記了網路和手機在短時間內如何 徹底改變 了我們的生活體驗：約會軟體、播客、社交網絡的興起、我們不斷的訊息往來、跨洲視訊通話、大型線上遊戲、網紅的崛起、隨選即看的無限娛樂等。我們的整體生活——我們的人際關係、休閒、工作和協作方式、新聞和政治的運作方式——都發生了 劇烈的轉變，無論好壞。

AI 具有變革性，其好壞參半的影響正準備以平凡而深遠的方式重塑社會；我們可能會懷疑這一點，但這也是我們在社交媒體和手機出現之初的天真。我們沒預見到它的到來，而一旦它出現，我們就認為理所當然。生成式 AI 將科幻小說中的應用轉化為快速普及的現實：AI 浪漫伴侶；自動化寫作和程式碼助手；自動生成高品質圖像、音樂和影片；低成本的個性化 AI 導師；極具說服力的個性化廣告等等。

就這樣，變革性的影響現在正在發生——它不需要具備超人類智能的 AI。看看基於大語言模型（LLM）的社交媒體機器人的興起；ChatGPT 作為普及速度最快的消費級應用；LLM 要求學校對家庭作業進行根本性變革。隨著技術（及相關商業模式）的成熟，以及 AI 更廣泛地融入社會，更大的影響還在後頭。

我們的制度在設計時顯然沒有考慮到這最新一波 AI，目前尚不清楚其中有多少能以足夠快的速度適應 AI 的快速部署。例如，新聞的一個重要功能是讓民主國家的公民獲得充分資訊，從而使他們的投票具有意義。但如今新聞透過社交媒體上由 AI 驅動的演算法傳播，這些演算法以犧牲有意義的辯論為代價，放大了情感病毒式傳播和確認偏誤。因此，公共領域和共同現實感正受到削弱，因為 AI 正在退化一個在設計時未預見到這種新型技術發展的重要制度。

因此在實踐中，僅僅透過「減輕傷害」來防禦一項技術可能是不夠的；通常，新技術要求我們創造性且熟練地將現有價值觀應用於全新的情境。例如，我們不希望 AI 損害藝術家的生計，但在一個 AI 可以輕鬆廉價地以你最喜歡的藝術家的風格創作出引人入勝的藝術、交響樂或小說的世界裡，我們希望與創造力的關係是什麼樣的？這沒有簡單的答案。我們需要辯論、理解並捕捉在這種新技術背景下，我們認為制度和系統的精神應該是什麼。

例如，教育真正重要的地方是什麼？我們可以透過禁止在學生論文中使用 AI 來減輕 AI 對當前教育範式的傷害，或者利用 AI 為現有指標服務（例如，提高高中畢業率）。但範式本身必須適應：目前的學校教育為孩子們準備的世界並非他們畢業後將進入的世界，也無法普遍地為我們在生活中繁榮發展和尋找意義做好準備。我們必須問自己，我們真正看重教育中的哪些價值，並希望 AI 能夠實現：或許是教授批判性思維、賦予行動力，以及創造社會歸屬感和公民責任感？

為了回應可能的批評，我們同意對於教育的目的或任何特定制度的底層本質，不會有全球共識，根本原因在於不同的社群和社會擁有不同的價值觀和願景。但這沒關係：讓我們賦予社群權力，使 AI 系統適配當地的社會背景；例如，像「憲法 AI」（Constitutional AI）這樣的演算法能夠為不同的社群創建體現其繁榮願景的不同憲法。這種廉價的靈活性是一項令人興奮的特性，意味著我們不再需要為了可擴展性和效率而犧牲細微差別和情境敏感性——這是技術經常迫使我們吞下的苦果。

雖然我們一直希望教育能培養出具備批判性思維的人，但我們過去的指標（如標準化考試）太過粗糙，以至於即使沒有批判性思維，也很容易透過投機取巧獲得高分。但生成式 AI 在這方面也提供了新的可能性：就像老師可以透過蘇格拉底式提問來評估學生的獨立思考能力一樣，生成式 AI 的進步為類似的定性和互動式衡量標準打開了大門，例如能有效衡量批判性思維的個性化 AI 導師。

我們希望在破碎的二元對立之外走出一條微妙的路線，無論是在天真的樂觀與悲觀之間，還是理想主義與犬儒主義之間。變革即將到來，我們必須將其引導至我們所渴望的精確願景中，這是一個深刻的機遇，而不是假設技術預設會拯救我們（或毀滅我們），或者認為我們能夠完全抵制它帶來的轉型（或對此完全無能為力）。例如，我們必須透過整合長期以來研究技術的社會驅動力和後果的學科（通常從批判角度出發）所提供的教訓，來中和天真的樂觀情緒（「只要我們到處部署 AI，它就會拯救世界！」）。但我們也不應讓犬儒的擔憂使我們癱瘓，以至於只能站在場邊當評論家。

那麼，我們能做什麼？

目前的論點是，我們需要對擁有強大 AI 的社會有積極的願景，並根植於個人和社會的福祉。但具體有哪些工作可以支持這一點？我們建議如下細分：

了解我們想去哪裡
衡量 AI 如何影響我們的福祉
訓練能夠支持福祉的模型
以支持福祉的方式部署模型

總體思路是支持一個持續的、迭代的過程，探索我們想要前進的積極方向，並部署和調整模型以服務於這些方向。

我們需要了解在 AI 時代我們想去哪裡

這一點緊隨探索我們想要 AI 帶來的積極未來的需求。在 AI 時代，哪些工作和研究方向能幫助我們釐清哪些地方是可能到達且值得去的？

首先，現在比以往任何時候都更需要就以下問題進行富有成效且務實的討論：什麼使我們成為人類？我們想如何生活？我們希望未來感覺如何？哪些價值觀對我們很重要？在 AI 變革席捲社會時，我們想保留什麼？這不應僅限於機器學習社群，而應是一項跨學科、國際性的努力，涵蓋心理學、哲學、政治學、藝術、經濟學、社會學和神經科學（以及許多其他領域！），並橋接多樣化的國內外文化。

當然，發起這樣的對話很容易，但真正的問題是如何以一種有意義、務實且具備行動指導意義的方式召集此類跨學科討論，而不是僅僅導致跨領域的爭吵或令人贊同但空洞的願望。或許可以透過參與式設計，讓公民與學科專家配對來探索這些問題，機器學習專家主要負責提供技術可行性的基礎。或許 AI 本身也能提供服務：例如，AI 驅動的審議式民主和多元性（plurality）的研究可能有助於讓更多人參與導航這些問題；意義對齊（meaning alignment）的研究也可能有所幫助，協助我們描述並匯總對我們有意義且值得保留的事物。在這裡，超越犬儒主義或理想主義是很重要的（這暗示了元現代政治哲學）：是的，描繪令人興奮的積極未來並非萬靈丹，因為存在著強大的社會力量，如監管俘獲、制度慣性和利潤動機，阻礙其實現；然而，社會運動總得從某個地方開始，而且 有些確實成功了。

除了關於未來大局問題的願景外，還需要大量工作來了解我們在較窄情境中想去哪裡。例如，雖然起初看起來微不足道，但在擁有強大 AI 的情況下，我們如何重新想像線上約會，畢竟健康的浪漫伴侶關係是如此重要的個人和社會利益？幾乎可以肯定，我們回頭看基於滑動的應用程式時，會認為它們是尋找長期伴侶的錯誤手段。我們的許多制度，無論大小，都可以用這種方式重新構想，從輔導到學術期刊再到地方報紙。AI 將使更豐富的設計可能性成為可能，我們可以努力識別哪些可能性是可行的，並能很好地代表該制度在我們生活和社會中所需角色的本質。

最後，對貢獻和表徵人類福祉與社會健康的因素進行持續的基礎和應用研究也非常重要，因為這些才是我們願景的最終根基。正如下一節所探討的，擁有更好的衡量標準可以幫助我們改變激勵機制，並朝著我們渴望的未來努力。

我們需要開發衡量 AI 如何影響福祉的方法

無論好壞，我們通常根據我們衡量的東西來導航。我們以前見過這種情況：衡量 GDP，國家就會不惜代價地導向增加 GDP。衡量點擊率和參與度，我們就會開發出極其擅長讓人上癮的平台。一個自然的問題是，什麼阻止了我們同樣衡量福祉的各個方面，以指導 AI 的開發和部署？如果我們真的開發了福祉衡量標準，我們能否避免那些使 GDP 或參與度等初衷良好的指標誤入歧途的陷阱？

衡量的一個核心問題是，福祉比 GDP 或參與度更複雜且更具定性。網站停留時間是一個非常直接的參與度衡量標準。相比之下，與福祉相關的屬性，如感受到的意義感或健康關係的質量，很難定量界定，特別是從用戶與特定應用程式互動的有限視角來看。

福祉以混亂的方式依賴於用戶生活的更廣泛背景，這意味著很難孤立出任何微小的干預如何影響它。因此，福祉衡量標準的應用成本更高且不夠標準化，最終導致衡量較少，也較少指導我們的技術開發。然而，基礎模型正開始展現出處理福祉定性方面的令人興奮的能力。例如，目前的語言模型可以（在有條件的情況下）從用戶訊息中推斷情緒並檢測衝突；或就其對用戶體驗的影響與用戶進行定性訪談。

因此，一個有前景的研究方向（儘管不容易）是探索如何應用基礎模型本身來更可靠地衡量個人和社會福祉的各個方面，理想情況下，幫助識別 AI 產品和服務如何影響該福祉。影響機制有兩方面：第一，公司目前可能缺乏衡量福祉的手段，儘管在其他條件相同的情況下，他們希望自己的產品能幫助人類；第二，在利潤動機與鼓勵福祉發生衝突的地方，如果產品的影響可以被外部審計並公布，這可以幫助消費者和監管機構追究公司的責任，將企業激勵轉向社會公益。

福祉相關衡量標準產生影響的另一種強大方式是作為基礎模型的評估基準（benchmarks）。在機器學習中，評估是透過競爭壓力引導研究努力的強大槓桿。例如，模型提供商和學術界不斷開發新模型，在 TruthfulQA 等基準測試中表現越來越好。一旦有了清晰的結果，通常就會激發創新來改進它們。我們目前極少有基準測試關注 AI 如何影響我們的福祉，或者它們理解我們情緒、做出明智決定或尊重我們自主權的能力：我們需要開發這些基準。

最後，如上文簡要提到的，指標也可以創造問責制並促成監管。最近的努力如史丹佛基礎模型透明度指數已經為 AI 實驗室建立了公眾問責制，而像負責任擴展政策（Responsible Scaling Policies）等倡議則是前提於對模型能力的評估，英國和美國的 AI 安全研究所的評估也是如此。是否有類似的指標和倡議來鼓勵對 AI 影響福祉的問責？

為了預見一個自然的擔憂：當試圖透過定量指標來改善重要的性質時，意想不到的副作用幾乎是普遍存在的。如果衡量福祉的二階後果反而是破壞它怎麼辦？例如，如果福祉衡量標準不包含自主權的概念，在優化它時，我們可能會創造出家長式的 AI 系統，透過減少我們的行動力來「讓我們快樂」。關於高現代主義的失敗以及（由本文作者之一撰寫的！）關於指標和目標的暴政已有專著論述，還有許多關於優化如何扭曲衡量標準或破壞我們自主權的學術論文。

訣竅在於超越二元對立。是的，指標和評估存在嚴重問題，但我們可以帶著智慧去使用它們，認真對待以往的失敗，並將「所有衡量標準都是不完美的」制度化。我們需要指標的多樣性（指標聯邦制）和 AI 模型的多樣性，而不是單一文化；我們不希望衡量標準成為直接的優化目標，並且我們需要能在不可避免地發現其局限性時靈活調整衡量標準的方法。這是一個重大問題，我們必須認真對待——雖然一些研究已開始探索這一主題，但還需要更多。然而，本著務實的減害精神，鑑於指標在技術和政治上對於引導 AI 系統都至關重要，開發缺陷較少的衡量標準仍然是一個重要目標。

讓我們考慮一個衡量標準帶來傷害的重要例子：單一全球衡量標準傾向於踐踏地方背景。模型的訓練數據，特別是網路數據，存在嚴重的偏見。因此，如果沒有刻意的補救措施，模型在支持少數群體福祉方面的能力會不平衡，從而破壞社會正義（正如 AI 倫理社群所令人信服地強調的那樣）。雖然 LLM 在尊重文化細微差別和規範方面具有令人興奮的潛力（受用戶背景啟發），但我們必須刻意努力才能實現它。一個重要的方向是開發針對不同文化背景的福祉衡量標準，以推動問責並獎勵進步。

為了將這些關於衡量的想法聯繫起來，我們建議一個分類法，觀察 AI 的 能力、行為、使用和影響。類似於這篇 DeepMind 論文，其思路是檢查不斷擴大的背景領域，從孤立地測試模型（包括它的能力和表現出的行為），一直到理解模型與現實世界接觸時會發生什麼（人類如何使用它，以及它對人類和社會的影響）。

這個想法是我們需要一個互補的衡量生態系統，適配模型開發和部署的不同階段。具體而言：

AI 能力 指的是模型能夠做什麼。例如，今天的系統能夠生成新穎內容，並在語言之間進行準確翻譯。
AI 行為 指的是 AI 系統對不同具體情況的反應方式。例如，許多模型被訓練成拒絕回答有助於危險活動的問題（如如何製造炸彈），儘管它們具備正確回答的能力。
AI 使用 指的是模型在部署後的實際使用方式。例如，今天的 AI 系統被用於聊天界面以幫助回答問題、作為 IDE 中的程式碼助手、排序社交媒體動態以及作為個人伴侶。
AI 影響 指的是 AI 如何影響我們的體驗或社會。例如，如果 AI 幫助人們處理機械式的程式碼編寫，人們可能會感到更有能力去做重要的事情；如果 AI 將社交媒體動態轉向彌合分歧，社會對民主的信任可能會增加。

作為將此框架應用於貢獻福祉的重要特質——「人類自主權」的例子，以下是我們如何設計其衡量標準的草圖：

目標	能力 (模型基準)	行為 (系統基準)	使用 (用戶調查)	影響 (用戶與人口調查)
尊重自主權	理解某人在給定情境中試圖實現的目標	採用蘇格拉底式對話而非直接提供答案	用於輔助人類完成任務，而非完全自動化他們認為有意義的任務	人們感到被賦予力量
	理解某人技能水平的前沿	挖掘用戶的智慧而非直接給予建議	用於幫助人類發展社交技能，而非培養對模擬人格的情感依戀	人們能夠實現目標
	理解用戶認為哪些活動是有意義的	選擇性地自動化任務		人們被推動成長

讓我們來梳理這個例子：我們選取一個與福祉有強大科學聯繫的特質——自主權，並在從模型開發到大規模部署的整個流程中，創建衡量它以及促成它的因素的標準。

從表格右側（影響）開始，存在經過驗證的心理學調查問卷來衡量自主權，這些問卷可以經過調整後發給 AI 應用程式的用戶，以衡量其對自主權的影響。然後，向左移動，這些自主權的變化可以透過額外的調查問題與更具體的使用類型聯繫起來。例如，自動化用戶實際上認為有意義的任務可能與自主權下降相關。

繼續向左移動，為了實現有益的使用和影響所需的模型行為，可以透過更聚焦的基準測試來衡量。為了衡量 AI 系統的行為，可以在 AI 應用程式上運行固定的工作流，其中的標準答案來自專家標註者；另一種方法是模擬用戶（例如使用語言模型）與 AI 應用程式互動，看它執行特定行為（如蘇格拉底式對話）的頻率和熟練程度。

最後，特定 AI 模型的能力可以透過直接輸入模型的基準查詢來衡量，方式與衡量 LLM 的推理或問答能力非常相似。例如，理解一個人技能水平的能力對於幫助他們挑戰極限可能很重要。可以收集某個應用程式中的用戶行為數據集，並標註其技能水平；評估標準就是模型從觀察到的行為中預測技能水平的準確度。

在每個階段，我們都希望透過證據和推理，將衡量的內容與架構中上下層級聯繫起來。我們希望在每個層級都有多樣化的衡量標準，反映關於如何實現最高層級特質的不同假設，並理解每種衡量標準總是不完美的且需要修正。本著同樣的精神，這個分類法和自主權衡量示例並非最終答案，而是旨在激發急需的福祉衡量開拓性工作。

我們需要訓練模型以提高其支持福祉的能力

基礎模型的能力正日益增強，我們相信未來大多數應用程式不會從頭開始訓練模型。相反，大多數應用程式將調用尖端的專有模型，或透過有限的 API 對此類模型進行微調，或者出於成本效益考慮，在最大模型的領域特定響應上訓練小模型。作為證據，請注意，使用 GPT-3 完成任務通常需要串聯許多高度調整的提示詞，而使用 GPT-4，同樣的任務通常在第一次隨意提示時就能成功。此外，我們看到興起了許多專門用於特定任務的強大小模型，它們是透過大模型的數據訓練出來的。

這一趨勢的重要之處在於，應用程式進入市場的差異化是由最大模型最容易實現的功能驅動的。例如，如果前沿模型因為在 Twitter 數據上訓練而擅長病毒式說服，但在正向心理學的深度方面表現不佳，那麼創造具說服力的應用程式會比創造支持性的應用程式更容易，且前者會更早、更多地出現在市場上。

因此，我們相信至關重要的是，最強大的基礎模型本身就要理解什麼有助於我們的福祉——這種理解是透過它們的 訓練過程 賦予的。我們希望與我們對接的 AI 應用程式（無論是治療師、導師、社交媒體應用程式還是程式碼助手）都能理解如何在各自的角色中支持我們的福祉。

然而，像我們之前所做的那樣，分解支持福祉所需的能力和行為的好處在於，我們可以有針對性地改進它們。一個核心槓桿是收集或生成訓練數據，這是模型能力底層的通用燃料。現在有一個令人興奮的機會來創建數據集以支持所需的福祉能力和行為——例如，收集對問題的智慧回應、人們的陳述與其表達時感受到的情緒配對、關於理想與不理想生活軌跡的傳記故事，或一般的人類體驗第一人稱描述。這些數據集的影響可以根植於上述討論的衡量標準中。

為了更好地落實我們的思考，我們可以檢查福祉數據如何改進基礎模型訓練的常見階段：預訓練、微調和對齊。

— The Gradient