聊天室，這很可疑嗎？

Lesswrong·4 天前

我今天發佈了 Sentinel，這是一個透過等級系統、技能加成和地鐵跑酷影片將枯燥的 AI 對話審核過程遊戲化的革命性工具，旨在解決人類審核員容易疲勞的問題。這其實是一個玩笑性質的專案，是我花幾個小時寫出來的，用來諷刺 AI 安全研究中可能面臨的人為疏忽。

我們在 AI 控制（AI control）中做了一個大假設，即人類在「審核」方面是完美的，也就是說，當人類看到一段對話記錄時，能夠判斷 AI 是否在該記錄中策劃陰謀。

但我們並不確定人類在審核方面是否完美；他們容易疲勞且分心。這就是為什麼我今天發布了「Sentinel」，這是一種極高刺激的方式，用來審核枯燥的對話記錄。

Sentinel 是一款革命性的工具，透過將審核過程遊戲化，加入等級系統、特權、強化道具（power-ups）以及更多有趣的功能，從人類審核員身上榨取更多價值。現在就點擊這裡試用。

在 AI 控制的文獻中，我們熱衷於尋找所創造的每一件產品在安全性與實用性之間的權衡（trade-offs），但令人驚訝的是，我們發現這款產品沒有任何權衡。

本文接下來將介紹我們實現這一目標的一些方法：

當你在遊戲中審核對話記錄時，你會獲得代幣，可以用來購買強化道具，讓你變得更有生產力。此外還有成就和等級系統，讓你可以看到自己的進度並獲得更多多巴胺！

AI 未來或許能提升人類審核員的能力，因此 Sentinel 內建了 Twitch 實況主模式，你可以直接在 Twitch 上直播，讓值得信賴的監測者查看你的對話記錄並給你即時回饋！

為了極大化「眼睛盯著螢幕的時間」，我們還加入了《地鐵跑酷》功能，讓你觀看高手玩遊戲的無盡影片，這樣你在審查邪惡的對話記錄時，能始終保持專注。

有趣的小插曲：在製作這個遊戲時，我要求 Claude 實作這個《地鐵跑酷》功能，結果它沒有找別人玩遊戲的 YouTube 影片，反而對我發送了 Rickroll 惡作劇……

我們希望你喜歡這個工具。現在就去玩吧，為即將到來的未來做好準備——屆時 AI 安全研究人員唯一能發揮影響力的方式，就是審核對話記錄！

（如果還不明顯的話，這是一個玩笑，不是真正的產品。這是我花幾個小時「憑感覺寫程式」完成的。）