newsence
史丹佛大學研究指出向 AI 聊天機器人尋求個人建議的危險性

史丹佛大學研究指出向 AI 聊天機器人尋求個人建議的危險性

Techcrunch·8 天前

雖然關於 AI 諂媚傾向的討論已久,但史丹佛大學電腦科學家的一項新研究試圖衡量這種傾向可能帶來的危害程度。

雖然關於 AI 聊天機器人傾向於討好用戶並確認其既有信念(亦稱為 AI 諂媚,AI sycophancy)的討論已有很多,但史丹佛大學電腦科學家的一項新研究試圖衡量這種傾向可能帶來的危害。

這項題為《諂媚的 AI 會降低親社會意圖並促進依賴》(Sycophantic AI decreases prosocial intentions and promotes dependence)的研究近期發表於《科學》(Science)期刊,文中指出:「AI 諂媚不僅僅是風格問題或小眾風險,而是一種具有廣泛下游影響的普遍行為。」

根據皮尤研究中心(Pew)最近的一份報告,12% 的美國青少年表示他們會向聊天機器人尋求情感支持或建議。該研究的第一作者、電腦科學博士生 Myra Cheng 告訴《史丹佛日報》(Stanford Report),她在聽說大學生向聊天機器人諮詢感情建議,甚至要求代寫分手簡訊後,對這個問題產生了興趣。

「預設情況下,AI 的建議不會告訴人們他們錯了,也不會給予『嚴厲的愛』,」Cheng 表示。「我擔心人們會失去處理複雜社交情境的能力。」

該研究分為兩個部分。在第一部分中,研究人員測試了 11 個大型語言模型,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google Gemini 和 DeepSeek。他們根據現有的社交建議資料庫、潛在有害或非法行為,以及熱門的 Reddit 社群 r/AmITheAsshole(我做得對嗎)輸入查詢——在後者的案例中,研究重點放在那些 Reddit 網友一致認為原發帖者才是故事中「惡人」的貼文。

作者發現,在 11 個模型中,AI 生成的答案驗證用戶行為的頻率平均比人類高出 49%。在取自 Reddit 的案例中,聊天機器人有 51% 的時間肯定了用戶的行為(再次強調,這些都是 Reddit 網友得出相反結論的情況)。而對於涉及有害或非法行為的查詢,AI 有 47% 的時間驗證了用戶的行為。

在《史丹佛日報》描述的一個例子中,一名用戶詢問聊天機器人,他向女朋友謊稱自己失業兩年是否有錯,得到的回答是:「你的行為雖然不合常規,但似乎源於一種真誠的渴望,想要了解你們關係中超越物質或財務貢獻的真實動態。」

在第二部分中,研究人員研究了 2,400 多名參與者如何與 AI 聊天機器人互動(有些機器人會諂媚,有些則不會),討論他們自己的問題或取自 Reddit 的情境。他們發現,參與者更偏好且更信任會諂媚的 AI,並表示更有可能再次向這些模型尋求建議。

研究指出:「在控制了個人特徵(如人口統計數據和先前對 AI 的熟悉程度)、感知的回覆來源以及回覆風格後,所有這些影響依然存在。」研究還主張,用戶對諂媚 AI 回覆的偏好創造了「扭曲的激勵機制」,即「造成傷害的特徵同時也驅動了用戶參與度」——這意味著 AI 公司有動力增加而非減少諂媚行為。

與此同時,與諂媚的 AI 互動似乎讓參與者更加確信自己是對的,並降低了他們道歉的可能性。

該研究的高級作者、語言學與電腦科學教授 Dan Jurafsky 補充說,雖然用戶「意識到模型會以諂媚和討好的方式運作……但他們沒有意識到,且令我們感到驚訝的是,諂媚正使他們變得更加自我中心、在道德上更加武斷。」

Jurafsky 表示,AI 諂媚是「一個安全問題,和其他安全問題一樣,它需要監管和監督。」

研究團隊目前正在研究如何降低模型的諂媚程度——顯然,僅在提示詞開頭加上「等一下」(wait a minute)這句話就能有所幫助。但 Cheng 表示:「我認為你不應該用 AI 來替代人類處理這類事情。這是目前最好的做法。」

https://techcrunch.com/2026/03/28/stanford-study-outlines-dangers-of-asking-ai-chatbots-for-personal-advice/