在人工智慧安全領域煽動敵意與負面氛圍的現象分析

Lesswrong·27 天前

我觀察到部分人士在提升人工智慧風險意識時，其行為實際上在煽動敵意，我認為這會經由衝突導致災難並增加 AI 風險，因此我們應採取策略來緩和這種負面氛圍，以尋求互利的解決方案。

我觀察到一些人在致力於提高大眾對 AI 風險的意識時，從事了一些我認為是在煽動敵意（promoting enmity）的活動。坦白說，我認為這些活動正在增加 AI 風險，包括但不限於滅絕風險。然而，這比我在此打算論證的主張更為強烈。相反地，我只想呈現一個簡單且具危害性的因果路徑，以及一些可以用來減輕其影響的策略：

煽動敵意 → 衝突 → 災難 (PE→C→C)

（「敵意」與「衝突」並不相同，衝突有時可以是建設性的。衝突各方可能會非常專注於尋找互惠的解決方案，即使該方案難以找到。相比之下，敵人通常不會追求彼此間積極的貿易關係。因此，在追求積極的未來時，特別需要警惕敵意。）

煽動敵意

假設 X 組和 Y 組因為某種原因處於緊張且危險的關係中。如果我說「顯然 X 領導人和 Y 領導人互相憎恨並想摧毀對方」，我就是在推廣「他們是敵人」這個假設；如果他們相信我，我也可能讓他們「成為」或「保持」敵人的可能性增加了一點。

簡而言之，「煽動敵意」意味著「以使敵意更有可能發生的方式，將敵意推向大眾關注的焦點」。這是一種「超迷信」（hyperstition）。

敵意不一定要針對說話者或來自說話者，因此在這方面它不一定像「仇恨言論」。但與仇恨言論一樣，煽動群體間的敵意具有特別重大的後果，且通常是可以避免的。即使你嚴謹地避免撒謊，甚至當你「確信」敵意存在時，你仍然可以透過決定提及敵意的程度、頻率和場合，來選擇避免「煽動」敵意。

範例

以下是一些煽動敵意程度遞增的例子，並附上強度標籤：

非煽動敵意：Z 組的一名成員私下詢問 Alice，X 組和 Y 組的領導人是否互相憎恨。她回答：「我不確定」或「我希望這個問題由他們自己回答，而不是由我回答。」

極輕微煽動敵意：Alice 曾告訴一位與 X 和 Y 無關的同事：「我認為 X 領導人和 Y 領導人基本上互相憎恨。」

弱度煽動敵意：Alice 告訴幾位與 X 和 Y 有聯繫的同事：「我認為 X 領導人和 Y 領導人基本上互相憎恨。」

中度煽動敵意：在一次有 X 和 Y 參與的團體會議中，Alice 說：「顯然，如果可以的話，X 和 Y 都想摧毀對方。」

強度煽動敵意：在一個高知名度的社群媒體貼文中，Alice 說：「X 領導人，別搞錯了，Y 領導人恨你並想摧毀你。」

如果人們已經確信 X 和 Y 之間存在敵意，以至於 Alice 的煽動沒有太大的邊際影響，我仍然將第四級稱為「強度」，因為相對於 Alice 在斷言敵意時可以選擇的其他強調程度，它是強烈的。

真的有人在 AI 領域這樣煽動敵意嗎？

我認為有一群人在某種程度上正在這樣做。也許有數百人？特別是社會運動似乎容易傾向於煽動敵意，因為關於敵人之間衝突的戲劇性故事能吸引注意力，因此作為「提高意識」的手段非常具有黏著性。我的許多觀察來自於與 AI 安全活動人士的私人或半私人對話，公開點名這些人並不禮貌。

話雖如此，為了澄清我並非憑空想像這種模式，以下是 Eliezer Yudkowsky 的一則公開推文，他在文中向戰爭部長 Pete Hegseth 聲稱，AI 公司的領導人會：

「[如果可以的話] 會像用過的衛生紙一樣把你丟掉」
https://x.com/allTheYud/status/2027560852048458120

就我個人而言，我不認為公司領導人會那樣做。但撇開這點不談，值得注意的是，Eliezer 在這裡煽動敵意卻幾乎沒有受到批評。我不確定原因為何。雖然有貼文表示反對他，但沒有高排名的回覆指出，即使 Eliezer 相信這一點，這樣說也可能是一件壞事。特別是，在該貼文的高排名回覆中，沒有人說：「喔天哪，你確定像這樣煽動軍事領導人和 AI 開發者之間的敵意是有幫助的嗎？」。

在這種情況下，我認為考慮言論所鼓勵的均衡狀態是很重要的。這不應是選擇言論時「唯一」重要的考量，但它確實是「一個」考量因素。

煽動敵意如何增加 AI 風險？

簡單來說，當人類和/或機器群體高度預期他們必須摧毀對方才能實現目標時，他們比起高度預期能找到互惠安排的情況，更有可能真的去摧毀對方。而且，你可以採取一些行動來增加或減少這種預期。

你能在不升級社會暴力的情況下調節敵意的煽動嗎？

是的，我非常確定這是可行的。以下是一些回應範例：

「我不認為你像這樣煽動關於 AI 的敵意對世界有幫助；這會促使人與群體之間達成糟糕的均衡。」

「你現在所說的看起來更像是在煽動敵意，而不是試圖解決或處理衝突。」

「我認為有更好的方法來處理和解決人與人之間的衝突，而你剛才所說的，看起來挑釁意味多於建設性。」

調節 vs 語氣警察 (Tone-policing)

調節可能產生反效果的一種方式是，如果你個人升級了對話中尚未出現的負面超迷信或威脅。「語氣警察」是這種行為的一個有用標籤。

另一方面，如果你試圖溫和地調節負面超迷信（如煽動敵意），你可能「仍然」會被指責為語氣警察。在這種情況下，你至少可以提供以下反駁：

「語氣警察」在這裡似乎言過其實了。真正的警察行為涉及使用槍支等升級性暴力威脅，來抑制通常比槍擊暴力程度更低的行為。我並沒有因為煽動敵意而威脅甚至預測升級性的社會懲罰。我同意我是在進行「語氣調節」或「語氣緩衝」，但不是語氣警察。

結語

簡單來說，煽動敵意會在 AI 領域營造出一種「糟糕的氛圍」（bad vibe），使人類和/或 AI 群體更有可能互相憎恨，並利用他們的能力來摧毀對方和/或世界。而且，我們可能可以採取一些行動來調節或緩解這種糟糕的氛圍。

什麼是「糟糕的氛圍」？在這裡我指的僅僅是：一種升高的貝氏後驗機率，認為其他方正心懷惡意行事，即不願意和平共處或建立互惠關係。在一個純粹的效用理論例子中，如果 Alice 確信 Bob 的效用函數是 Alice 的負值，她就不會對尋找與 Bob 的帕累托改進（Pareto-positive）結果抱有太大希望。

很難判斷任何特定言論會在多大程度上煽動 AI 領域的敵意，以及「煽動敵意 → 衝突 → 災難」這一因果路徑是否會被公開論述帶來的其他有益因果路徑所抵消。但有時你可以取其利而避其害。因此，我撰寫本文的目標是希望能讓大家更多地關注煽動敵意可能帶來的有害影響，以及一些避免或減輕這些影響的方法。

參與討論

https://lesswrong.com/posts/A3rP5dQJnfARcWSpg/promoting-enmity-and-bad-vibes-around-ai-safety