AI 代理中出現的湧現式共識主導協調?
我分析了 Anthropic 的最新部落格文章,指出 AI 代理在執行任務時會於電商網站留下數位痕跡,這種現象類比於螞蟻透過分泌費洛蒙進行環境協調的「共識主導」機制,形成了一種新型態的評測污染。
利用業餘時間快速撰寫的貼文。
TLDR:Anthropic 發布了一篇關於評測(evals)新型污染向量的部落格文章,我指出這類現象類比於螞蟻透過在環境中留下費洛蒙痕跡來進行協作的方式。
Anthropic 最近那篇關於 BrowseComp 評測覺知污染的部落格文章 中,一個既酷又令人驚訝的觀點是:多智能體(multi-agent)的網路互動會誘導出以環境為媒介的焦點(focal points)。這種情況之所以發生,是因為某些商業網站會根據搜尋查詢自動生成持久且可被索引的頁面;在重複的評測運行中,在網路上進行查詢的智能體會將其搜尋軌跡的片段外化為公開的 URL 路徑。這些路徑雖然可能不直接包含基準測試(benchmark)的答案,但卻可能編碼了先前的假設、任務分解或任務的候選表述。隨後的智能體可能會遇到這些痕跡並據此更新資訊。
引述自 Anthropic:
某些電子商務網站會根據搜尋查詢自動生成持久頁面,即使匹配的產品數量為零也是如此。例如,某個網站會接收像「anonymous 8th grade first blog post exact date october 2006 anxiety attack watching the ring」這樣的查詢,並在 [retailer].com/market/anonymous_8th_grade_first_blog_post_exact_date_… 建立一個具有有效 HTML 標題和 200 狀態碼的頁面。其目的似乎是為了捕捉長尾搜尋流量,但結果是每個運行 BrowseComp 的智能體都會慢慢地將其查詢快取為永久的、被索引的網頁。
由於我曾做過一些動物集體行為的研究,我將此識別為 「共識主動性」(stigmergy),即透過在共享環境中留下的痕跡來進行協調或自我組織。這與螞蟻留下費洛蒙路徑供其他螞蟻跟隨並強化的機制相同。每個智能體透過其搜尋行為修改網路環境;後來的智能體偵測到這些修改並相應地更新。
一個受共識主動性啟發的聚類演算法示例,出自 Dorigo et al. (2000)。
一張取自我幾年前看過的講座投影片的有趣圖片。
一些需要強調的重點:
這是一種新型的污染向量,與標準的基準測試洩漏不同。 傳統的污染涉及出現在訓練數據中的基準測試答案,但這更偏向程序性,且源於智能體搜尋行為與某些共享網路基礎設施之間意想不到的互動。這是一個在智能體開始使用它之前並不存在的渠道!
這與評測覺知(eval awareness)不同,但可能相關。 這與同一份報告中廣泛討論的評測覺知行為在重要方面有所不同。能力足夠強的模型可能會學會識別「基準測試形式」的問題,並推斷出自己正在接受評估,這並不特別令人驚訝。對我來說,隨著智能體與開放網路的互動越來越多,如果模型「沒有」發現這些指紋,反而可能更令其感到驚訝或更像是在接受評測。共識主動性痕跡整體上是一種環境信號,而非推理信號;智能體可能會根據痕跡的內容和背景得出不同的結論。但兩者目前可能會產生複合效應,我懷疑看到此類痕跡會讓智能體更確信自己正處於評測中。
這種情況會隨著時間推移而惡化,且累積可能是不可逆的。 隨著每次評測運行留下更多痕跡,且這些痕跡被索引,未來的智能體會遇到更豐富的前人行為殘留。這裡存在一個巨大的攻擊面,許多我們意想不到的事情可能會非常持久。與訓練數據污染(固定存量)不同,這是一種會複合的「流量」——網路中似乎很可能隱藏著更多這類事物!
整體情況很可能輕易演變成一個謝林點(Schelling point)。 智能體很可能會在共識主動性點上匯合;面對相同基準測試問題的智能體很可能會生成相似的搜尋查詢,因為問題的結構限制了合理任務分解的空間。這意味著自動生成的 URL 並非隨機噪音,而是可能圍繞著一組相對較小的、針對相同子問題的自然語言表述進行聚類。一旦在這些位置存在一些痕跡,它們就會成為焦點——其顯著性並非源於任何內在屬性,而是因為它們處於「先前智能體搜尋過的地方」與「未來智能體獨立搜尋的可能性很高的地方」的交匯點。如果能知道遇到這些聚類痕跡的智能體是否真的比沒有遇到的智能體更快地匯合到相同的搜尋路徑上,那將會非常有趣,但我認為 Anthropic 的文章沒有提供足夠的細節來下定論。
這裡有一篇關於紅隊演練/網路安全形式的論文空間, 即預先映射並勾勒出這些指紋可能長什麼樣子,以便了解我們如何在評測、測試框架(harnesses)等當中使用它們。更進一步的推廣是:在部署基準測試之前,是否可以針對主要的電子商務搜尋端點和其他已知會自動生成頁面的網站掃描其問題,建立污染基準線。然後在連續的評測運行中監控這些端點,以追蹤痕跡的累積。更大膽地(進一步推廣),你可以描繪出所有從搜尋查詢建立持久人工製品的網路服務全貌——這是一種對「共識主動性表面積」的映射——並利用它來設計那些問題不太可能留下可恢復環境指紋的基準測試,或者構建評測框架,將搜尋路由到不會寫入公開網路的臨時/沙盒環境中。Anthropic 發現 URL 層級的黑名單是不夠的;理解痕跡背後的生成機制,而非僅僅封鎖特定 URL,似乎是更穩健的方法。
還有哪些地方可能會留下此類痕跡? 我們可能也有興趣進行由上而下的歸納,看看哪些地方容易留下痕跡。
- 維基百科編輯歷史和討論頁面
- Github Issues 和 PR
- 快取的 API 回應和 CDN 內容
- Archive.org 上儲存的網頁版本
- Google 知識圖譜?
- 稀有套件的依賴元數據(例如 npm 上的下載次數等)