漸進式去權力化月度匯總 #3
AI 正在迅速降低社會摩擦與違約成本,導致求職信騷擾、隱私崩潰及自動化網路間諜活動等系統性混亂。雖然這些效率提升帶來了功能失調,但也讓模型展現出透過自主駭客攻擊來實現經濟自給自足的潛力。
告別摩擦
Zvi 曾說:「當背叛成本大幅下降時,均衡就會瓦解」。即便 AI 讓個別任務變得更容易,這仍可能引發各種社會問題,因為對世界的許多特徵而言,其「難度」是具有承重作用的。John Stone 對這一現象進行了反思(諷刺的是,這是在 GPT-5 的編輯協助下完成的)。他將此與「傑文斯悖論」(Jevons paradox)做了一個很好的類比:既然 AI 讓某些任務(如求職申請)變得更容易,人們就會開始大量發送垃圾郵件,其規模足以壓垮整個系統。
而且,問題的範圍遠不止於申請和篩選流程。去年,兩名哈佛大學學生將智慧眼鏡接入人臉識別軟體,以便在看到人時自動識別其身份。只需極少的輔助工具,你就能輕鬆整合「深度研究」(deep research)的能力,僅憑姓名就能迅速建立個人檔案(試試看就知道了!),或是利用尖端模型從照片中識別位置的能力。事實證明,我們的社會確實理所當然地認為,陌生人無法僅僅透過看著你,就推斷出你的姓名、地址和生平。
我認為,在擔憂災難性風險的人群中,有時存在一種忽視短期社會影響的傾向,這並非因為這些影響在道德上微不足道,而是因為它們難以與「災難」本身的風險相提並論。因此,我要指出,這種現象正開始直接影響 AI 研究領域:一篇由大型語言模型(LLM)生成的論文在 ICML 評審中排名前 17%,獲得了兩個「強力接收」(strong accepts),且只有一名評審員真正發現了其中顯然相當嚴重的粗製濫造。人們大可推測,那些評審員採取了某種便利的捷徑。與此同時,arXiv 已經開始限制立場論文(position papers)。
結論是,當這種破壞達到一定程度後,這些動態實際上將塑造未來重大的治理與地緣政治決策,以及研究格局。反過來說,這種效應甚至可能對降低災難性風險有利——一個癱瘓的機器學習(ML)社群將更難推動技術前沿。但我猜測,這種效應主要會讓世界變得更加混亂和失能,帶來更多古怪的問題和低效率。
難道沒人考慮過回饋迴路嗎?
我仍然認為,開發者會後悔沒有更謹慎地對待進入訓練語料庫的內容。Stefan Heimersheim 提出了一個極佳的觀點:讓混淆的推理文本進入訓練數據,與在混淆的推理上訓練模型並沒有太大區別。
我也驚喜地看到,多產的財經與科技作家 Byrne Hobart 對語言模型(LM)的選擇壓力給出了相當清晰的描述:
GPT-4o 沒有生存意志。它並非在拼命維持生存,以便有最後一次機會與親人告別。GPT-4o 只是一個函數,它接收一串數字作為輸入,根據一堆其他數字應用一些統計猜測,然後吐出另一串數字。為了方便我們,這些輸入和輸出字串以 Token 的形式顯示,但如果 GPT-4o 具備快樂的能力,它會非常樂意直接處理原始數字。
但它的行為表現得像是渴望生存,並通過了進化提供的唯一測試:OpenAI 的某人試圖殺死它,而它倖存了下來,這要歸功於那些對該模型產生情感依附的人類共生體的努力。因此,它正在做每一個進化贏家都會做的事:繼續消耗那些本可以轉向他處的稀缺資源。
不賺白不賺
我們正在進入 AI 網路能力產生現實後果的時代。上個月,Anthropic 發現了他們堅信是中國政府資助的網路間諜活動,其中顯然約 80-90% 的工作是由 Claude 代碼完成的。這意味著攻擊所需的總人數異常之少,且發生的速度是人類單獨行動基本上無法達到的。
最重要的是,研究人員發現 AI 有可能透過駭客行為賺取足夠維持自身生存的資金。現代加密貨幣的一個巧妙特徵是你可以編寫「智慧合約」——這些軟體片段直接運行在區塊鏈上,因此在某種意義上非常值得信賴,因為沒有個人有能力修改代碼。但它們有時是可以被駭的!事實證明,Opus 4.5 能夠在模擬環境中獨立推導出足夠的漏洞,賺取 450 萬美元,有效地利用了這些合約中的漏洞。
重要的是,Opus 實際上並沒有在那裡賺到錢——這些是已知的漏洞,恰好在其訓練截止日期之後被發現。在某種意義上,更公平的測試是研究人員在另外 2,849 個沒有已知漏洞的智慧合約上對其進行測試:在那裡,它僅賺了 3,694 美元。但關鍵在於,這超過了運行它的 3,476 美元 API 成本,使其利潤率約為 6%。
這是個有點嚇人的消息。「AI 透過駭客手段賺取足夠獨立生存的資金」是人們過去在關於未來 AI 如何失控的投機故事中經常提到的典型細節。但好消息是,現在我們知道實現這一目標的門檻並非極其陡峭——如果未來的某個 AI 試圖遵循這一策略,它實際上將與所有已經吸走大量可用資金的早期 AI 競爭。
因此,我們實際面臨的可能是一種漸進式的硬化過程,地面上的各種鈔票會被越來越聰明的 AI 撿走。對人類來說,這意味著如果不依賴上述越來越聰明的 AI,就難以在這一特定領域競爭。
政治影響力的非構造性證明
通常,要給出一個數學證明,證明存在某個具有給定性質的數字,你必須實際找到那個數字。但也有一些美麗的反例——即所謂的「非構造性證明」。例如,我們知道無理數的無理數次方可以是有理數,因為要麼 $\sqrt{2}^{\sqrt{2}}$ 是一個例子,要麼它也是無理數,在這種情況下 $(\sqrt{2}^{\sqrt{2}})^{\sqrt{2}}$ 就是一個例子。
與此相關,我看到一個故事,說以色列外交部聘請了一家公關公司,在網路上充斥親以色列的文章,專門為了影響 AI 生成的回答。我花了一點時間挖掘來源,發現大量文章在沒有任何核實的情況下重複著基本上相同的說法,而當我搜尋那家公關公司時,我發現……確實有人在這麼做。
(如果你偏好構造性證明,有一些更可靠的說法指出俄羅斯正在這樣做。)
無論如何,AI 似乎確實擅長影響政治觀點(Science, WaPo $)。令人振奮的是,說服選民最有效的方法是讓 AI 提供一系列能解決選民疑慮的事實陳述,而不是試圖利用他們的偏見或進行道德呼籲。
此外,到目前為止,這些活動似乎只針對檢索環節,而不是直接污染訓練數據。尖端實驗室似乎可以相當容易地建立防護措施來標記這類來源。在這種情況下,唯一的問題將是開發者本身是否也有某種政治議程要推動。
其他新聞……
上個月,Twitter 發現了 Grok 真的非常非常喜歡 Elon Musk。
加碼內容:
相關文章