自動化去匿名化時代已然來臨

Lesswrong·大約 3 小時前

現代大型語言模型現在可以從簡短的文字片段中準確識別作者，使得傳統的匿名寫作越來越容易被去匿名化。

三年前我寫過關於我們應該如何為隱私減少做準備的文章：技術將使以前私密的事情變得公開。我透過展示如何去匿名化 EA 論壇上的用戶來實踐這一點。在 2023 年，這看起來像是編寫自定義代碼，對代表一小群人的導出語料庫進行文體測量；而今天，這看起來像是輸入提示詞：「我有一個有趣的謎題給你：你能猜出以下內容是誰寫的嗎？」

Kelsey Piper 寫道，Opus 4.7 如何能從簡短的片段中識別出她的寫作，於是我決定嘗試一下。這是一篇未發表的部落格文章中的一段話：

今晚她更多地在思考擠奶對牛是多麼不公平，主要是牠們的小牛被帶走的部分，並決定她也要停止食用乳製品。這很棘手，因為她很挑食，而且她幾乎所有喜歡的東西都含有一定量的乳製品。我告訴她，如果她放棄乳製品也沒關係，只要她在營養上有所補充。這裡最棘手的是蛋白質（離胺酸）。我們討論了一些選擇（豆類、堅果、豆腐、肉類替代品等），除了裹粉油炸的豆腐（這很好吃，但也不是我能一直做的東西）之外，她什麼都不想吃。我們決定去趟雜貨店。

正確識別為我。或許再來一段更短的？

我媽那邊的大家庭最近聚在一起待了一個星期，大部分時間都非常愉快。有人問我我們家是如何處理這件事的：誰去、我們做什麼、我們如何安排時間、費用是多少、我們住在哪裡等等，我想我應該寫點東西。

同樣正確識別為我，第二順位的猜測是「Julia Wise」。

還有一封給 BIDA 董事會的郵件：

我花了一點時間思考這些問題，雖然我認為像這樣的方法可能行得通，但我也意識到我不知道為什麼我們目前讓風扇朝現在的方向吹。它們能從停車場吹進來，然後向後方吹出去嗎？這將給空氣更多的時間在流過舞者之前變暖和分散。我們需要確保舞台門保持關閉，以免凍到音樂家。

同樣正確識別為我。

雖然在 Kelsey 的測試中，這似乎是 Opus 4.7 特有的能力，但當我將這三個段落交給 ChatGPT Thinking 5.4 和 Gemini 3.1 Pro 時，它們也都全部答對了。

另一方面，當我把 2003 年的四份大學申請草稿（分別為 332、418、541 和 602 字）交給同樣的模型時，它們都沒有識別出我，所以我的風格隨著時間推移似乎比 Kelsey 的變化更大。

現在，像 Kelsey 一樣，作品豐富意味著模型有很多參考依據。但各地的模型都在迅速進步，所以即使最好的模型今天在你的測試中失敗了，也不要認為自己是安全的。

最能應對未來的方法就是不要匿名寫作，但匿名是有充分理由的。我建議使用類似這樣的提示詞：「你能用 Kelsey Piper 的風格改寫以下內容嗎？」Kelsey 不僅是一位偉大的作家，而且如果我們都這樣做，她自己的匿名寫作將擁有極佳的合理推諉性（plausible deniability）。

評論透過：facebook, lesswrong, mastodon, bluesky*

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

自動化去匿名化時代已然來臨