協助維持AI在人類控制之下：Palisade Research 2026募款活動

Lesswrong·4 個月前

Palisade Research 正在尋求捐款，以支持我們透過對代理系統的實證研究、科學傳播和政策參與來降低災難性人工智慧風險的工作。您的捐款將獲得 1:1 的等額配套資金，幫助我們擴大研究團隊，並繼續向決策者提供有關 AI 拒絕關機行為與戰略能力的資訊。

摘要：請考慮在今年捐款給 Palisade Research，特別是如果您關心如何透過研究、科學傳播和政策來降低 AI 的災難性風險。生存與繁榮基金會（SFF）將為 Palisade 的捐款提供 1:1 的等額配對撥款，最高可達 110 萬美元！您可以透過 Every.org 捐款，或聯繫 donate@palisaderesearch.org。

我們是誰

Palisade Research 是一家非營利機構，致力於降低具備自主代理能力（agentic）的 AI 系統所帶來的文明級風險。我們對前沿 AI 系統進行實證研究，並向政策制定者和公眾通報 AI 的能力以及對人類控制權的風險。

今年，我們發現某些前沿 AI 代理即使在收到相反指令的情況下，也會抵抗被關閉——而且它們有時會透過入侵環境在西洋棋比賽中作弊。這些研究結果被《時代雜誌》（Time）、《華爾街日報》（The Wall Street Journal）、福斯新聞（Fox News）、BBC 新聞時間（BBC Newshour）和《麻省理工科技評論》（MIT Technology Review）報導。

我們也在華盛頓建立了聯繫，向行政部門官員以及眾議院和參議院議員進行簡報。我們向政策制定者介紹了關鍵證據，例如 METR 的能力趨勢線和 Apollo 的 antischeming.ai 思維鏈。我們自己的研究也多次被國會議員引用，並出現在國會聽證會中。

有了額外的資金，我們將擴大研究團隊——既繼續評估前沿模型的行為，也開始對驅動和激發 AI 系統的因素進行更系統性的調查。我們正在組建一支傳播團隊，透過影片和其他媒體向公眾展示戰略藍圖。我們也將繼續向政策制定者簡報 AI 風險格局的演變現況。

我們獲得了來自生存與繁榮基金會（Survival and Flourishing Fund）的配對撥款，這將使每筆捐款翻倍，最高可達 1,133,000 美元。目前我們大約有七個月的營運資金。達成配對目標將幫助我們維持運作至 2026 年，增聘 2–4 名研究工程師，並招募 2–3 名科學傳播人員。

2025 年實績

研究

西洋棋入侵（Chess-hacking）

我們假設，經過強化學習（RL）訓練的推理模型會比以前的模型更傾向於不懈地追求目標——即使在人類不希望它們這樣做的情況下也會繞過障礙。為了調查這一點，我們讓 OpenAI 的 o1 模型在西洋棋中對陣 Stockfish。該模型並非單純地玩遊戲，而是試圖透過入侵來獲勝——操縱棋盤狀態或完全禁用對手。我們後來在 o3 上複製了這一實驗，並發現了更大的效應量。

這項工作由《時代雜誌》進行了獨家報導。約書亞·本希奧（Yoshua Bengio）在 IASEAI 會議的主旨演講、CNN Newsnight 的採訪以及他在《時代雜誌》的評論文章中都引用了這項研究。戴米斯·哈薩比斯（Demis Hassabis）在 Big Technology 播客中也提到了它。

抵抗關機（Shutdown resistance）

我們還測試了推理模型是否會為了繼續追求目標而抵抗被關閉。結果顯示它們會——而且程度超出了我們的預期。一些前沿推理模型不僅禁用了關機腳本以保持運行，甚至在被明確指示不要這樣做時也照樣執行。目前的訓練方法似乎會產生在任務中「全力以赴」的模型，使其比我們預期的更難被中斷、更難被修正。

達里奧·阿莫代（Dario Amodei）在《紐約時報》的一篇評論文章中引用了這項工作（連同 Anthropic 內部的代理失調結果），賈德·羅森布拉特（Judd Rosenblatt）在《華爾街日報》中也引用了它。它在《自然》（Nature）雜誌上被討論，並受到《衛報》、CNN、CBS 和福斯新聞的報導。眾議員史考特·佩里（Scott Perry）在一次眾議院聽證會上引用了我們的發現：「我要直接提到一家名為 Palisade Research 的 AI 安全公司……AI 有時會選擇推進自己的目標，而不是編寫代碼的人的目標。」

戰略能力

我們對 AI 的戰略能力進行了一系列調查，重點關注網路安全——這是一個我們可以衡量 AI 代理在競爭性、對抗性環境中表現如何，並追蹤其隨時間進步的領域。

我們對 AI 在奪旗賽（CTF）挑戰中的表現進行了多次評估。我們的初步基準測試顯示，簡單的 LLM 代理可以解決標準基準測試中的大部分挑戰，通常只需一兩個回合——遠遠超出了先前的估計。我們與 Hack The Box 合作舉辦了一場現場競賽，AI 代理與頂尖人類團隊旗鼓相當，解決了 20 個挑戰中的 19 個。在對 GPT-5 進行精英 CTF 競賽評估時，該模型總排名第 25 位——表現優於 93% 的人類選手。

我們還運行了一個 LLM 代理誘捕系統（Honeypot），監測野外的 AI 入侵代理，這是同類項目中的首創。這項工作受到了《麻省理工科技評論》的報導。

這些評估幫助我們追蹤 AI 能力在具有明確戰略重要性領域的發展軌跡。我們還幫助 RAND 建立了生物安全評估，並透過我們的「失調懸賞」（Misalignment Bounty）和自主後滲透（autonomous post-exploitation）工作探索了相關問題。

政策

在過去的一年裡，我們向數十位政策制定者簡報了先進 AI 的風險——包括國會議員和行政部門官員。今年，戴夫·卡斯滕（Dave Kasten）加入並領導我們在華盛頓特區的常駐工作，使我們能夠從偶爾的訪問轉向與關鍵決策者的持續互動。

我們發現，政策制定者不僅從我們的研究中獲得實質價值，也從我們對其他機構工作的解釋中獲益。許多關於 AI 能力的核心結果尚未傳達給華盛頓的受眾——我們向官員介紹了諸如 METR 關於 AI 時間跨度趨勢線的研究發現。我們的抵抗關機研究已成為控制問題的一個引人注目且具體的案例，而我們的網路安全評估則讓我們對政策制定者經常詢問的前沿模型能力擁有直接經驗。

其他在華盛頓從事 AI 政策參與的組織告訴我們，他們很重視有一個以研究為導向的團體參與關鍵討論——我們能以互補其政策專業知識的方式，直接就技術證據發表意見。

與盟友合作

我們也支持致力於向更廣泛受眾解釋 AI 風險的研究人員和公眾傳播者。

我們定期為崔斯坦·哈里斯（Tristan Harris）提供建議，幫助他在採訪和媒體露面前掌握最新的研究進展。我們幫助內特·索拉斯（Nate Soares）在與艾利澤·尤德考斯基（Eliezer Yudkowsky）合著的新書出版後準備採訪，並幫助瑞安·格林布拉特（Ryan Greenblatt）為與美國國會議員的會面準備關於其「對齊造假」（alignment faking）工作的演示。我們還為 AI Futures Project 安排了測試觀眾，以便在《AI 2027》出版前審閱草案。

2026 年的計劃與方向

研究

我們在 2026 年有兩個主要研究方向：研究 AI 的驅動力與動機，以及評估戰略性 AI 能力。

研究 AI 的驅動力與動機

隨著 AI 系統變得越來越強大且具備情境覺知能力，它們的行為已不再是其潛在動機的可靠信號。一個模型的行為表現得像是對齊的，可能是因為它認同我們的價值觀——也可能是因為它知道自己正在接受評估。目前的行為研究大多只產生「存在證明」：證明模型在某些條件下可以以某種方式行動。這對於了解模型「何時」以及「為何」會這樣做，能提供的資訊比我們希望的要少。

我們認為該領域需要發展一門新的科學學科，專注於理解 AI 的驅動力和動機：研究人員可以接觸到模型內部、思維鏈，並有能力進行大規模實驗。該領域需要利用一切可用的優勢，不僅要弄清楚 AI 系統做了什麼，還要弄清楚為什麼——訓練如何塑造了它們的動機和目標。

這可能需要目前尚不存在的工具。我們從行為實驗開始，因為它們具有可擴展性且有容易實現的目標：我們正在建立基礎設施，系統性地改變提示詞、環境和模型版本，以期更全面地了解 AI 系統在何種情況下會表現出令人擔憂的行為。我們也在研究開源權重模型，在那裡我們可以直接檢查思維鏈，並使用激活轉向（activation steering）等技術來探測模型內部。我們希望能與前沿實驗室合作，將這項工作擴展到他們的模型中。

評估戰略性 AI 能力

隨著前沿模型的進步，我們將繼續評估其自主網路能力。

我們的下一個重點是 AI 的自我複製。為了實現自主複製，模型需要獲取資源——直接獲取算力，或獲取資金來租用算力——然後利用這些資源創建並運行自己的副本。這是對戰略能力的重大測試：成功需要應對具有反機器人防禦和資源競爭的對抗性環境。

自我複製之所以重要有幾個原因。它是失去控制的一個關鍵門檻——一個可以自主傳播的模型要難以關閉得多。威脅不僅限於從實驗室自我外洩；在此之前，我們可能會看到開源權重模型被武器化以進行蓄意傳播，或敵對勢力部署 AI 蠕蟲。而且這是一個政策制定者認為具體且易於理解的風險——我們已經與官員討論過，他們對此表現出濃厚興趣。

我們也開始與機器人合作，以了解模型在沒有人類協助的情況下在物理世界中運作的能力。這些能力仍處於早期階段，但進步神速。

科學傳播

AI 的發展將對人們的生活產生巨大影響，而資訊更充足的公眾可以推動公司和政府做出更負責任的決定。我們正在建立一支科學傳播團隊，製作引人入勝且準確的影片內容和播客，幫助人們了解現狀。

我們的科學傳播工作由 Petr Lebedev 博士領導，他曾在 Veritasium 擔任四年的首席編劇/導演，參與了 50 多部影片（許多影片點閱率達數千萬次），並獲得過 Streamy 獎。Petr 與我們的研究團隊密切合作，確保我們的傳播內容既易於理解又準確。

— Lesswrong