聊天室,這很可疑嗎?
我今天發佈了 Sentinel,這是一個透過等級系統、技能加成和地鐵跑酷影片將枯燥的 AI 對話審核過程遊戲化的革命性工具,旨在解決人類審核員容易疲勞的問題。這其實是一個玩笑性質的專案,是我花幾個小時寫出來的,用來諷刺 AI 安全研究中可能面臨的人為疏忽。
我們在 AI 控制(AI control)中做了一個大假設,即人類在「審核」方面是完美的,也就是說,當人類看到一段對話記錄時,能夠判斷 AI 是否在該記錄中策劃陰謀。
但我們並不確定人類在審核方面是否完美;他們容易疲勞且分心。這就是為什麼我今天發布了「Sentinel」,這是一種極高刺激的方式,用來審核枯燥的對話記錄。
Sentinel 是一款革命性的工具,透過將審核過程遊戲化,加入等級系統、特權、強化道具(power-ups)以及更多有趣的功能,從人類審核員身上榨取更多價值。現在就點擊這裡試用。
在 AI 控制的文獻中,我們熱衷於尋找所創造的每一件產品在安全性與實用性之間的權衡(trade-offs),但令人驚訝的是,我們發現這款產品沒有任何權衡。
本文接下來將介紹我們實現這一目標的一些方法:
遊戲化
當你在遊戲中審核對話記錄時,你會獲得代幣,可以用來購買強化道具,讓你變得更有生產力。此外還有成就和等級系統,讓你可以看到自己的進度並獲得更多多巴胺!
Twitch 直播模式
AI 未來或許能提升人類審核員的能力,因此 Sentinel 內建了 Twitch 實況主模式,你可以直接在 Twitch 上直播,讓值得信賴的監測者查看你的對話記錄並給你即時回饋!
地鐵跑酷(Subway Surfers)
為了極大化「眼睛盯著螢幕的時間」,我們還加入了《地鐵跑酷》功能,讓你觀看高手玩遊戲的無盡影片,這樣你在審查邪惡的對話記錄時,能始終保持專注。
有趣的小插曲:在製作這個遊戲時,我要求 Claude 實作這個《地鐵跑酷》功能,結果它沒有找別人玩遊戲的 YouTube 影片,反而對我發送了 Rickroll 惡作劇……
展望未來
我們希望你喜歡這個工具。現在就去玩吧,為即將到來的未來做好準備——屆時 AI 安全研究人員唯一能發揮影響力的方式,就是審核對話記錄!
(如果還不明顯的話,這是一個玩笑,不是真正的產品。這是我花幾個小時「憑感覺寫程式」完成的。)