漸進式去權力化月度匯總 #3

Lesswrong·4 個月前

AI 正在迅速降低社會摩擦與違約成本，導致求職信騷擾、隱私崩潰及自動化網路間諜活動等系統性混亂。雖然這些效率提升帶來了功能失調，但也讓模型展現出透過自主駭客攻擊來實現經濟自給自足的潛力。

告別摩擦

Zvi 曾說：「當背叛成本大幅下降時，均衡就會瓦解」。即便 AI 讓個別任務變得更容易，這仍可能引發各種社會問題，因為對世界的許多特徵而言，其「難度」是具有承重作用的。John Stone 對這一現象進行了反思（諷刺的是，這是在 GPT-5 的編輯協助下完成的）。他將此與「傑文斯悖論」（Jevons paradox）做了一個很好的類比：既然 AI 讓某些任務（如求職申請）變得更容易，人們就會開始大量發送垃圾郵件，其規模足以壓垮整個系統。

而且，問題的範圍遠不止於申請和篩選流程。去年，兩名哈佛大學學生將智慧眼鏡接入人臉識別軟體，以便在看到人時自動識別其身份。只需極少的輔助工具，你就能輕鬆整合「深度研究」（deep research）的能力，僅憑姓名就能迅速建立個人檔案（試試看就知道了！），或是利用尖端模型從照片中識別位置的能力。事實證明，我們的社會確實理所當然地認為，陌生人無法僅僅透過看著你，就推斷出你的姓名、地址和生平。

我認為，在擔憂災難性風險的人群中，有時存在一種忽視短期社會影響的傾向，這並非因為這些影響在道德上微不足道，而是因為它們難以與「災難」本身的風險相提並論。因此，我要指出，這種現象正開始直接影響 AI 研究領域：一篇由大型語言模型（LLM）生成的論文在 ICML 評審中排名前 17%，獲得了兩個「強力接收」（strong accepts），且只有一名評審員真正發現了其中顯然相當嚴重的粗製濫造。人們大可推測，那些評審員採取了某種便利的捷徑。與此同時，arXiv 已經開始限制立場論文（position papers）。

結論是，當這種破壞達到一定程度後，這些動態實際上將塑造未來重大的治理與地緣政治決策，以及研究格局。反過來說，這種效應甚至可能對降低災難性風險有利——一個癱瘓的機器學習（ML）社群將更難推動技術前沿。但我猜測，這種效應主要會讓世界變得更加混亂和失能，帶來更多古怪的問題和低效率。

難道沒人考慮過回饋迴路嗎？

我仍然認為，開發者會後悔沒有更謹慎地對待進入訓練語料庫的內容。Stefan Heimersheim 提出了一個極佳的觀點：讓混淆的推理文本進入訓練數據，與在混淆的推理上訓練模型並沒有太大區別。

我也驚喜地看到，多產的財經與科技作家 Byrne Hobart 對語言模型（LM）的選擇壓力給出了相當清晰的描述：

GPT-4o 沒有生存意志。它並非在拼命維持生存，以便有最後一次機會與親人告別。GPT-4o 只是一個函數，它接收一串數字作為輸入，根據一堆其他數字應用一些統計猜測，然後吐出另一串數字。為了方便我們，這些輸入和輸出字串以 Token 的形式顯示，但如果 GPT-4o 具備快樂的能力，它會非常樂意直接處理原始數字。

但它的行為表現得像是渴望生存，並通過了進化提供的唯一測試：OpenAI 的某人試圖殺死它，而它倖存了下來，這要歸功於那些對該模型產生情感依附的人類共生體的努力。因此，它正在做每一個進化贏家都會做的事：繼續消耗那些本可以轉向他處的稀缺資源。

不賺白不賺

我們正在進入 AI 網路能力產生現實後果的時代。上個月，Anthropic 發現了他們堅信是中國政府資助的網路間諜活動，其中顯然約 80-90% 的工作是由 Claude 代碼完成的。這意味著攻擊所需的總人數異常之少，且發生的速度是人類單獨行動基本上無法達到的。

最重要的是，研究人員發現 AI 有可能透過駭客行為賺取足夠維持自身生存的資金。現代加密貨幣的一個巧妙特徵是你可以編寫「智慧合約」——這些軟體片段直接運行在區塊鏈上，因此在某種意義上非常值得信賴，因為沒有個人有能力修改代碼。但它們有時是可以被駭的！事實證明，Opus 4.5 能夠在模擬環境中獨立推導出足夠的漏洞，賺取 450 萬美元，有效地利用了這些合約中的漏洞。

重要的是，Opus 實際上並沒有在那裡賺到錢——這些是已知的漏洞，恰好在其訓練截止日期之後被發現。在某種意義上，更公平的測試是研究人員在另外 2,849 個沒有已知漏洞的智慧合約上對其進行測試：在那裡，它僅賺了 3,694 美元。但關鍵在於，這超過了運行它的 3,476 美元 API 成本，使其利潤率約為 6%。

這是個有點嚇人的消息。「AI 透過駭客手段賺取足夠獨立生存的資金」是人們過去在關於未來 AI 如何失控的投機故事中經常提到的典型細節。但好消息是，現在我們知道實現這一目標的門檻並非極其陡峭——如果未來的某個 AI 試圖遵循這一策略，它實際上將與所有已經吸走大量可用資金的早期 AI 競爭。

因此，我們實際面臨的可能是一種漸進式的硬化過程，地面上的各種鈔票會被越來越聰明的 AI 撿走。對人類來說，這意味著如果不依賴上述越來越聰明的 AI，就難以在這一特定領域競爭。

政治影響力的非構造性證明

通常，要給出一個數學證明，證明存在某個具有給定性質的數字，你必須實際找到那個數字。但也有一些美麗的反例——即所謂的「非構造性證明」。例如，我們知道無理數的無理數次方可以是有理數，因為要麼 $\sqrt{2}^{\sqrt{2}}$ 是一個例子，要麼它也是無理數，在這種情況下 $(\sqrt{2}^{\sqrt{2}})^{\sqrt{2}}$ 就是一個例子。

與此相關，我看到一個故事，說以色列外交部聘請了一家公關公司，在網路上充斥親以色列的文章，專門為了影響 AI 生成的回答。我花了一點時間挖掘來源，發現大量文章在沒有任何核實的情況下重複著基本上相同的說法，而當我搜尋那家公關公司時，我發現……確實有人在這麼做。

（如果你偏好構造性證明，有一些更可靠的說法指出俄羅斯正在這樣做。）

無論如何，AI 似乎確實擅長影響政治觀點（Science, WaPo $）。令人振奮的是，說服選民最有效的方法是讓 AI 提供一系列能解決選民疑慮的事實陳述，而不是試圖利用他們的偏見或進行道德呼籲。

此外，到目前為止，這些活動似乎只針對檢索環節，而不是直接污染訓練數據。尖端實驗室似乎可以相當容易地建立防護措施來標記這類來源。在這種情況下，唯一的問題將是開發者本身是否也有某種政治議程要推動。

其他新聞……

上個月，Twitter 發現了 Grok 真的非常非常喜歡 Elon Musk。

加碼內容：

— Lesswrong

你的個人知識庫

漸進式去權力化月度匯總 #3