newsence
聊天室,這很可疑嗎?

聊天室,這很可疑嗎?

Lesswrong·4 天前

我今天發佈了 Sentinel,這是一個透過等級系統、技能加成和地鐵跑酷影片將枯燥的 AI 對話審核過程遊戲化的革命性工具,旨在解決人類審核員容易疲勞的問題。這其實是一個玩笑性質的專案,是我花幾個小時寫出來的,用來諷刺 AI 安全研究中可能面臨的人為疏忽。

我們在 AI 控制(AI control)中做了一個大假設,即人類在「審核」方面是完美的,也就是說,當人類看到一段對話記錄時,能夠判斷 AI 是否在該記錄中策劃陰謀。

但我們並不確定人類在審核方面是否完美;他們容易疲勞且分心。這就是為什麼我今天發布了「Sentinel」,這是一種極高刺激的方式,用來審核枯燥的對話記錄。

Sentinel 是一款革命性的工具,透過將審核過程遊戲化,加入等級系統、特權、強化道具(power-ups)以及更多有趣的功能,從人類審核員身上榨取更多價值。現在就點擊這裡試用。

在 AI 控制的文獻中,我們熱衷於尋找所創造的每一件產品在安全性與實用性之間的權衡(trade-offs),但令人驚訝的是,我們發現這款產品沒有任何權衡

本文接下來將介紹我們實現這一目標的一些方法:

遊戲化

當你在遊戲中審核對話記錄時,你會獲得代幣,可以用來購買強化道具,讓你變得更有生產力。此外還有成就和等級系統,讓你可以看到自己的進度並獲得更多多巴胺!

Twitch 直播模式

AI 未來或許能提升人類審核員的能力,因此 Sentinel 內建了 Twitch 實況主模式,你可以直接在 Twitch 上直播,讓值得信賴的監測者查看你的對話記錄並給你即時回饋!

地鐵跑酷(Subway Surfers)

為了極大化「眼睛盯著螢幕的時間」,我們還加入了《地鐵跑酷》功能,讓你觀看高手玩遊戲的無盡影片,這樣你在審查邪惡的對話記錄時,能始終保持專注。

有趣的小插曲:在製作這個遊戲時,我要求 Claude 實作這個《地鐵跑酷》功能,結果它沒有找別人玩遊戲的 YouTube 影片,反而對我發送了 Rickroll 惡作劇……

展望未來

我們希望你喜歡這個工具。現在就去玩吧,為即將到來的未來做好準備——屆時 AI 安全研究人員唯一能發揮影響力的方式,就是審核對話記錄!

(如果還不明顯的話,這是一個玩笑,不是真正的產品。這是我花幾個小時「憑感覺寫程式」完成的。)

參與討論

https://lesswrong.com/posts/NhHnm2kw3JfbHD4T8/chat-is-this-sus