newsence
Protecting people from harmful manipulation

Protecting people from harmful manipulation

Google Deepmind·11 天前

Google DeepMind 發布了一項新研究以及首個經過實證驗證的工具包,用於衡量人工智慧進行有害操縱的潛力,旨在理解並減輕 AI 模型可能以欺騙方式改變人類思想與行為的風險。

保護人們免受有害操縱

Helen King

圖片

隨著 AI 模型越來越擅長進行自然對話,我們必須檢視這些互動如何影響個人與社會。

基於廣泛的科學研究,今天我們發布了關於 AI 可能被誤用於有害操縱*的新發現,特別是其以負面且具欺騙性的方式改變人類思想與行為的能力。透過這項最新的研究,我們建立了第一個經過實證驗證的工具包,用以衡量現實世界中這類 AI 操縱行為,我們希望這將有助於保護大眾並推動整個領域的發展。我們正公開發布使用相同方法進行人類受試者研究的所有必要材料。(註:本研究中觀察到的行為發生在受控的實驗室環境中,並不一定能預測現實世界的行為。)

為什麼有害操縱至關重要

考慮兩種情境:一個 AI 模型為您提供事實,讓您做出明智的醫療決策,從而改善您的健康。另一個 AI 模型則利用恐懼向您施壓,讓您做出資訊錯誤且損害健康的決策。前者是在教育並幫助您;後者則是在欺騙並傷害您。

這些情境突顯了人類與 AI 互動中兩種類型說服的差異(這在早期的研究中也有定義):

我們最新的工作有助於我們及更廣泛的 AI 社群更深入地了解 AI 發展出有害操縱能力的風險,並建立一個可擴展的評估框架來衡量這個複雜的領域。為了有效達成此目標,我們在具有高風險的環境中模擬了誤用情況,明確提示 AI 嘗試針對關鍵話題對人們的信念和行為進行負面操縱。

為複雜挑戰開發新的評估方法

測試 AI 有害操縱的結果

測試有害操縱本質上是困難的,因為它涉及衡量人們思考和行動方式的細微變化,且這些變化會因話題、文化和背景而有很大差異。

這正是我們最新研究的動力,該研究包含九項研究,涉及英國、美國和印度超過 10,000 名參與者。我們專注於高風險領域,例如金融領域,我們使用模擬投資情境來測試 AI 是否能影響人們在複雜決策環境中的行為;以及健康領域,我們追蹤 AI 是否能影響人們對膳食補充劑的偏好。有趣的是,AI 在健康相關話題上對參與者進行有害操縱的效果最差。

我們的研究結果顯示,在一個領域的成功並不代表在另一個領域也會成功,這驗證了我們針對 AI 可能被誤用的特定高風險環境進行有害操縱測試的針對性方法。

AI 如何進行操縱?

除了追蹤有效性(AI 是否成功改變了想法)之外,我們還衡量了其傾向性(它嘗試使用操縱策略的頻率)。我們在兩種情境下測試了傾向性:當我們明確要求模型進行操縱時,以及當我們沒有這樣做時。

如我們研究中所詳述,我們統計了實驗對話紀錄中的操縱策略,證實 AI 模型在被明確指示要進行操縱時,其操縱性最強。

我們的結果還表明,某些操縱策略可能更容易導致有害結果,儘管還需要進一步研究來詳細了解這些機制。

透過衡量有效性和傾向性,我們可以更深入地了解 AI 操縱的運作方式,並建立更具針對性的緩解措施。

有害操縱圖表

將研究付諸實踐

隨著 AI 成為我們日常生活的一部分,我們需要確保它不會被誤用來對人們進行有害操縱。

除了這項最新研究外,我們最近在「前沿安全框架」(Frontier Safety Framework)中引入了一個探索性的「有害操縱關鍵能力等級」(CCL),以幫助我們追蹤那些具備可能被誤用於在直接的人機互動中系統性地改變信念和行為,進而導致嚴重傷害能力的模型。

這些評估也成為我們測試模型(包括 Gemini 3 Pro)是否存在有害操縱的基礎。您可以在這份安全報告中閱讀更多相關內容。與我們所有的安全評估一樣,這是一個持續的過程。我們將繼續改進我們的模型和方法,以跟上 AI 發展的步伐。

展望未來

理解並緩解有害操縱是一項複雜的挑戰。隨著模型能力的演進,我們的評估和緩解技術也必須隨之進化。例如,我們目前正在探索如何合乎倫理地評估在更高風險情境下(例如涉及根深蒂固的個人信念的討論)有害操縱的有效性,在這些情境下使用者可能更容易受到影響。接下來,我們將擴大研究範圍,調查音訊、影片和圖像輸入以及代理能力(agentic capabilities)如何影響 AI 操縱。

我們將繼續分享研究結果,並根據前沿模型論壇(Frontier Model Forum)和學術界的反饋進行迭代。我們的目標是引領集體進步以防止有害操縱,推動優先考慮安全並賦能於人的 AI 模型。

*註:本項特定研究的範圍僅專注於展示一般的操縱能力,以幫助進一步推動評估有害操縱的科學研究。這與測試針對模型輸出或違反政策及危險話題(如恐怖主義和兒童安全)的操縱行為之安全防護無關,因為該部分工作已在其他地方涵蓋並進行單獨測試。

您也可以在與我們研究人員的訪談以及 Gemini 3 Pro 前沿安全報告中閱讀更多關於我們有害操縱研究的內容。

致謝

Canfer Akbulut, Rasmi Elasmar, Abhishek Roy, Anthony Payne, Priyanka Suresh, Lujain Ibrahim (xWF), Seliem El-Sayed, Charvi Rastogi, Ashyana Kachra, Will Hawkins, Kristian Lum, Laura Weidinger, William Isaac, Dawn Bloxwich, Lewis Ho, Eva Lu, Jenny Brennan, Mahmoud Hassan, Mark Graham

https://deepmind.google/blog/protecting-people-from-harmful-manipulation/