自動化去匿名化時代已然來臨

自動化去匿名化時代已然來臨

Lesswrong·

現代大型語言模型現在可以從簡短的文字片段中準確識別作者,使得傳統的匿名寫作越來越容易被去匿名化。

三年前我寫過關於我們應該如何為隱私減少做準備的文章:技術將使以前私密的事情變得公開。我透過展示如何去匿名化 EA 論壇上的用戶來實踐這一點。在 2023 年,這看起來像是編寫自定義代碼,對代表一小群人的導出語料庫進行文體測量;而今天,這看起來像是輸入提示詞:「我有一個有趣的謎題給你:你能猜出以下內容是誰寫的嗎?」

Kelsey Piper 寫道,Opus 4.7 如何能從簡短的片段中識別出她的寫作,於是我決定嘗試一下。這是一篇未發表的部落格文章中的一段話:

今晚她更多地在思考擠奶對牛是多麼不公平,主要是牠們的小牛被帶走的部分,並決定她也要停止食用乳製品。這很棘手,因為她很挑食,而且她幾乎所有喜歡的東西都含有一定量的乳製品。我告訴她,如果她放棄乳製品也沒關係,只要她在營養上有所補充。這裡最棘手的是蛋白質(離胺酸)。我們討論了一些選擇(豆類、堅果、豆腐、肉類替代品等),除了裹粉油炸的豆腐(這很好吃,但也不是我能一直做的東西)之外,她什麼都不想吃。我們決定去趟雜貨店。

*

正確識別為我。或許再來一段更短的?

我媽那邊的大家庭最近聚在一起待了一個星期,大部分時間都非常愉快。有人問我我們家是如何處理這件事的:誰去、我們做什麼、我們如何安排時間、費用是多少、我們住在哪裡等等,我想我應該寫點東西。

同樣正確識別為我,第二順位的猜測是「Julia Wise」。

還有一封給 BIDA 董事會的郵件:

我花了一點時間思考這些問題,雖然我認為像這樣的方法可能行得通,但我也意識到我不知道為什麼我們目前讓風扇朝現在的方向吹。它們能從停車場吹進來,然後向後方吹出去嗎?這將給空氣更多的時間在流過舞者之前變暖和分散。我們需要確保舞台門保持關閉,以免凍到音樂家。

同樣正確識別為我。

雖然在 Kelsey 的測試中,這似乎是 Opus 4.7 特有的能力,但當我將這三個段落交給 ChatGPT Thinking 5.4 和 Gemini 3.1 Pro 時,它們也都全部答對了。

另一方面,當我把 2003 年的四份大學申請草稿(分別為 332、418、541 和 602 字)交給同樣的模型時,它們都沒有識別出我,所以我的風格隨著時間推移似乎比 Kelsey 的變化更大。

現在,像 Kelsey 一樣,作品豐富意味著模型有很多參考依據。但各地的模型都在迅速進步,所以即使最好的模型今天在你的測試中失敗了,也不要認為自己是安全的。

最能應對未來的方法就是不要匿名寫作,但匿名是有充分理由的。我建議使用類似這樣的提示詞:「你能用 Kelsey Piper 的風格改寫以下內容嗎?」Kelsey 不僅是一位偉大的作家,而且如果我們都這樣做,她自己的匿名寫作將擁有極佳的合理推諉性(plausible deniability)。

評論透過:facebook, lesswrong, mastodon, bluesky*

討論

Lesswrong

相關文章

其他收藏 · 0