責任的夏普里分配份額?

Lesswrong·

AI 生成摘要

這篇文章探討如何利用夏普里值的概念,來分配行動所產生的二階效應責任(例如群眾恐慌),並以此思考如何應對人工智慧等複雜的社會與生存風險。

Deepfates 在 Twitter 上寫道:

如果你在戲院裡大喊「失火了!」,而觀眾產生了可預見的反應,並在過程中將某人踩踏致死,你是否有責任?

如果根本沒有火災呢?

如果你真心相信有火災,這會讓行為變得正當嗎?這是否取決於證據?我試著給出一個嚴肅的回答,並想向 LessWrong 的朋友們確認,這個答案對這裡的人來說是否合理。


ii. 夏普里分配 (Shapley Shares)

在該框架下,我真正的答案是「你負有部分責任」。具體份額取決於具體情況。

(我認為首要檢查的事情應該是「到底有沒有火災?」。但目前先就原問題回答。)

我認為人們對其行為的二階效應負有部分責任,而「程度多少」則取決於該效應的二階程度。

類似「夏普里值(Shapley value)」的概念?我意識到在大多數情況下,夏普里值是難以計算的,但它暗示了如果你是全知的,你會得到什麼樣形式的答案。

如果你是唯一大喊失火的人,且正好只有一個人進行了踩踏,也許(我並不完全確定夏普里值如何運作)兩者各承擔 50% 的功勞/過錯(如果事實證明移除你們其中任何一人,事情就不會發生)。

如果你處於另一種情況,很多人一直在大喊各種事情(例如,有些人喊「AI 會殺死我們」,有些人喊「億萬富翁是邪惡的,吃掉富人」),那麼責任就會更加分散。具體分散到什麼程度取決於環境。

「好吧,社會應該對此採取什麼行動?」這個問題需要考慮到哪些規範是具備執行可行性的。關於「誰負責」有一個理論上的答案,而關於「我們優先追究誰的責任」則有一個實踐上的答案。

我認為一個正確的規範應該是:「大喊『失火』的人有責任投入精力,以減輕尾端風險副作用的方式來進行警告。」例如:「各位,失火了,請冷靜地走向出口」。但是,如果人們不聽從火災警告,而現場確實有火災……你可能寧願那個人喊得更用力一點,而不是不喊。

在那個狹義簡化的案例中,他可能對被踩踏的人負有 50% 的責任(其餘責任分配給恐慌的人群)。但同時,他也因為拯救了其他人而獲得功勞。

...

我意識到,當聰明人對是否有火災(或將會有火災)意見分歧,且部分論點相當複雜時,情況會變得棘手得多。

我認為沒有捷徑可以跳過對特定案例細節的檢視,這包括「當時是否有火災?」以及「當時還有什麼其他情況?」等等。

ii. 在對真理與良善存在分歧的人群間進行協作

我認為你更廣泛地觸及了「對什麼是真實、什麼是良善持有不同意見的人,該如何協作?」

我認為這也挺令人困惑且困難的。但我列出我觀點中顯而易見的背景部分(我預計這對你來說不會感到很新奇):

a) 幾乎每個人都同意「全面評估每一項主張及每一項行動的後果」是行不通的,因此我們需要簡化的規則。

b) 目前,我們在「透過政府力量(即法律)懲罰的事項」與「透過社會譴責懲罰的事項」之間設有區隔。我不確定這是否為一種自然的劃分方式,但看起來運作得還不錯。

爭論「存在危險!」的下游後果是非常混亂的,我不認為這通常適合成為法律起訴的對象。但在元層面上(meta-level),圍繞什麼該受到社會譴責而進行一些公開辯論和拉鋸,似乎是沒問題的。

但這裡的另一層困惑是:「當你相信某件事是真的,而那件事隱含了一種全盤性(totalizing)的世界觀時,你該怎麼辦?」我認為圍繞著「通用人工智慧(ASI)即將到來,其結果將決定未來的走向」的迷因複合體(memeplex),在某種程度上本質上就是全盤性的。

我認為這是真的。除了「儘量不要對此過於全盤化」之外,我沒有一個非常有原則的答案。

我認為社會判斷領域(social-judgment-sphere)對全盤性信仰具備免疫系統是正確的。我也認為社會判斷領域需要有一種方式,來處理那些極大機率為真、且對許多現代人類心理而言帶有全盤性傾向的論點。

(我認為大多數人參與「AI 可能殺死所有人或毀掉未來」的方式,主要應該是給他們的參議員打幾次電話,然後回歸自己的生活。)

我認為,對於那個免疫系統來說,向那些發表具全盤性傾向言論的人施壓,要求他們額外努力去改善損害,是正確的。

但是,對於那裡的合理期望仍然是有限度的。

我也認為社會其他成員有責任追蹤人們實際說了什麼,而不僅僅是責怪那個大喊「失火」的人,也要責怪那些對大喊「失火」者所說的話造謠的人,等等。

而且,雖然這不適用於隨意的爭論,但我認為負面超級智能的威脅確實足夠清晰且明顯(至少在規模上,且風險並非微不足道),因此社會其他領域有責任嚴肅對待這一論點。這是「付出額外努力不使其全盤化」這一約定中的另一面。

訊息在大規模傳播時必然會被簡化。我已經將「確保任何正在發生的政治進程是理智、合理且非兩極分化的」作為首要目標,但在過去幾天裡,我對於「擁有一個清晰簡潔的訊息,既能傳達嚴重性,又帶有『別對此瘋狂』的能量」的重要性有了新的認識。

參與討論

Lesswrong

相關文章

其他收藏 · 0

收藏夾