newsence

追隨誘因:道德困境與誘因的本質分析

Lesswrong·大約 18 小時前

這篇文章探討了追隨不良誘因是否能成為不道德行為的藉口,並指出真正的道德力量在於抵抗誘因的能力,同時質疑我們所謂的誘因往往只是短期壓力或錯誤的單次博弈思維。

幾年前,我聽了一場引人入勝的播客訪談,嘉賓是前民主黨總統參選人楊安澤(Andrew Yang)和瑪麗安·威廉森(Marianne Williamson)。他們都同意政治是一團糟,且政治人物不斷做出傷害他們本應服務的人民的壞事。但對於這讓這些政治人物「作為一個人」而言有多糟糕,他們無法達成共識。

楊安澤傾向於將政治人物視為對不良激勵(incentives)做出反應的普通人;但威廉森則想稱他們為邪惡,因為他們在這些不良激勵面前未能展現勇氣。

從道德上講,認為人們在遵循激勵時不應受到譴責的觀點,類似於納粹在紐倫堡審判中試圖使用的「只是服從命令」的藉口。但替代方案是什麼?在實踐中,我們不能也不會期望人們在周圍所有人都不做正確的事時,還能「總是」堅持做正確的事。

在某些情況下,「大家都在做」確實是一個可以接受的藉口,因為其他人真的都在這麼做,而不這樣做會讓你處於顯著且不公平的劣勢。但也有一些絕對的底線,在這些情況下,這個藉口永遠不可接受——例如種族滅絕。

大多數時候,情況更為複雜:做正確的事意味著在邊際上做得更好一點。如果班上其他所有人都在作弊並使用 AI 來寫作業,這可能意味著堅持一項原則,即你只在那些顯然無意義的瑣事部分使用 AI——並讓這一點為人所知。

一位同事最近說的一句話很好地總結了這一點:「一個人的道德力量,正是其抵抗不良激勵的能力。」(意譯)

激勵現在就在我們身邊嗎?

但這篇文章最終並非關於倫理。我想問一個更基本的問題:當我們說某人正在「遵循激勵」時,我們真正的意思是什麼?

我認為大多數時候,從字面意義上來看,這點並不完全明確。我的看法是,「表面上的短期類激勵氛圍」(apparent short-term incentive-like vibes)或許能更準確地描述他們實際遵循的東西。那些更有「激勵感」的氛圍,通常與自私和貪婪等惡習相關。金錢:激勵!!同儕的欽佩:激勵???

我認為「激勵」通常指的其實更像是一種競爭壓力感,或是一種**「如果我不這樣做,別人也會做,到時候我就成了傻瓜和失敗者」**的信念。

當我在讀研究所時,身邊的人通常感到很大的壓力要發表大量論文。但那些真正脫穎而出並取得成功的人,往往更專注於做出對該領域其他人真正有價值的實質貢獻,即使這意味著發表較少。那種**「表面上的」不斷發表的激勵**,幾乎完全是背道而馳的!

通常人們做一些不符合長期利益的事情,確實會獲得短期利益。因此,這可能屬於遵循**「短期激勵」**的特例(並且可能對長期的好處感到困惑)。更頻繁地發表論文,短期內會讓學生看起來更有產出或令人印象深刻,並能獲得參加會議的差旅資助。但你真正想要推進職業生涯的,是因你所做出的成就而在整個領域成名;再多平庸的出版物也無法帶你達到那個高度。

「單次博弈思維」常被誤用

遵循短期激勵的一個特例,或許也是最令人費解的普遍現象,就是單次博弈思維(one-shot thinking)。你可能遇過這種情況,有人會說:「對方當然不會合作——因為沒有誘因!所以我們也不能合作!」而聽眾則將此視為老練、強硬的見解。但拒絕合作會讓價值白白流失。當你有機會談判、建立信任,及/或建立執行機制以確保各方履行承諾時,你似乎至少應該考慮尋找合作的方法。這裡的基本錯誤在於將互動視為孤立的「單次」賽局,結束後每個人都走開,再也不會以任何方式互動。表現得好像情況是「單次」的(而事實並非如此),這並不老練,而是愚蠢。

這也意味著,說你因為「激勵」而做了壞事,並不能成為藉口。你已經做了那件事。「單次」的部分已經結束了。你現在正處於因之前的行為而被評判的處境,而將某事視為單次博弈,只有在你永遠不會因為博弈中的行為而受到評判時才成立。

將這些見解應用於 AI,就留給讀者作為練習。

感謝閱讀《The Real AI》!免費訂閱以接收新文章並支持我的工作。

參與討論

https://lesswrong.com/posts/Ty9kHKhW7ivtimuWr/following-the-incentives