理想的人應該在什麼程度下發出狼來了的預警？

Lesswrong·大約 3 小時前

作者認為理性的風險管理要求針對低機率、高影響的事件多次發出預警，即便這些事件最終並未發生，並批評了社會對人工智慧安全領域中虛假警報的污名化現象。

關於狼與理性的一個事實是：為了應對每一次有效的狼群襲擊，你應該向人們發出好幾次狼來了的警告。

特別是，羊群被吞噬的代價與規避一次未發生的狼群襲擊的代價之間存在不對稱性。如果大屠殺的後果嚴重一百倍，那麼為了阻止它，發出多達九十九次虛假警報也是值得的。

原版寓言是關於一個不斷就狼群撒謊的男孩，那絕對是品行不端。

但在現代用語中，「喊狼來了」（crying wolf）似乎被用來指代僅僅是對最終平安無事的事情公開表示擔憂——我並未聽出其中有多少欺騙的含義。

而在現代觀念中，被視為「喊狼來了」——即便只是發出了一次最終未演變成災難的警報——似乎是人們真正恐懼的事情。我想有不只一個人問過我，人工智慧安全（AI safety）領域的人是否對早期的某些 GPT 模型「喊過狼來了」。我並未察覺有任何人這樣做，但「他們可能這樣做過」的想法是如此誘人，以至於值得調查。因為即便只是某處有少數幾個人這樣做了，對 AI 安全領域的人來說，也將是一個多麼令人尷尬的打擊。

而我當時的反應可能也落入了誘人的陷阱：急於保證我不記得在這些圈子裡聽過任何此類擔憂。但我認為，這隱含地接受了那個默認的前提——即發出哪怕一次警告都是相當可恥且天真的——從而惡化了公眾的思想規範。

與此相關的是，那些看到 AI 真實風險的人可能害怕表達出來，唯恐被視為「喊狼來了」，並在下一輪危險到來時耗盡該運動的信用。因為人們理所當然地認為，一個人應該只有一次發出警報的機會。第一次警告必須是針對那隻最不可否認、巨大且邪惡的真狼。

這並不是我們想要的狼群監視系統。

「警告」通常是針對相當糟糕的事件，因此，當這些事件發生的機率仍然很低時，發出警告往往是值得的。這為社會在調整人們的信用時帶來了真正的困難——當他們警告過的低機率事件並未發生時。大多數時候，如果這個人是對的，那些事件本來就不該發生！這個人並不是說它們很可能會發生！然而，你又不想讓危言聳聽者輕易脫身，讓他們對任意多次的警報都擁有合理的推諉藉口。

我認為這個困境的解決方案應該更具定量性，例如收集一個人或一場運動所做預測的豐富追蹤記錄，並對其進行評分。目前這種幼稚地譴責任何未發生的危險的做法是瘋狂的。

與此同時，如果存在一些在每次警告中出現機率都很低的嚴重風險，我們仍應對其發出警告，而不應過於畏懼那些缺乏數據常識的習俗。

討論

— Lesswrong

你的個人知識庫

理想的人應該在什麼程度下發出狼來了的預警？