是什麼凝聚了 AI 安全領域？從 200 篇論文看共同作者網絡

Lesswrong·大約 6 小時前

我們計算了基於 200 篇 AI 安全論文的共同作者網絡，發現雖然頂尖實驗室產出大量研究，但大學在中心性上仍佔主導地位，AI 安全領域更像是一個不同部門機構交換知識與資源的貿易區，由少數跨機構研究者聯繫在一起。

我們（社會科學博士生）根據涵蓋 2015 年至 2025 年的 200 篇 AI 安全論文語料庫，計算了共同作者網絡，我們希望徵求您的協助，檢查底層數據集是否正確。

共同作者網絡使參與 AI 安全研究的實體之相對重要性變得可視化，並追蹤它們之間的關係。儘管前沿實驗室產出了大量研究，但它們仍然出奇地封閉——在我們的圖表中，大學在中心性（centrality）方面佔據主導地位。這個網絡是由一小群擁有多重隸屬關係的研究人員維繫的，他們通常在職業生涯中期於學術界和業界之間切換。對我們而言，AI 安全看起來不那麼像一個統一的領域，而更像是一個「交易區」（trading zone），來自不同部門的機構在此交換知識、財務資源、算力和合法性，而不侵犯彼此的自主權。

當然，這些可視化結果的品質取決於其底層語料庫，因為網絡的形狀對納入的內容非常敏感。以下是目前顯示個人層面共同作者關係的樣貌：

*圖 1：方法

個人共同作者關係的計算方式是：每篇論文在其作者之間的所有配對（dyads）中增加一條邊（edge）。我們使用 Newman 的加權法：一篇論文中兩位作者之間的邊定義為 1/sqrt(n-1)，其中 n 是該論文的作者人數。這會隨著作者總數的增加而降低每對作者之間的權重，使作者人數眾多的論文不會壓倒網絡結構。節點和文字大小對應於中介中心性（betweenness centrality），百分位數在 98% 及以上的作者以紅色顯示。百分位數低於 75% 的作者姓名被省略，以減少視覺干擾。

點擊此處查看高解析度版本。

圖 1：顏色圖例

雖然學術界和營利性作者佔據了不同的集群，但超過 95% 的節點都屬於圖中所示的單一組件，這表明這是一個普遍緊密連接的社群。儘管僅佔總人數的不到 10%，但在中介中心性高於 75% 的作者中，超過 60% 在語料庫中的不同論文裡擁有多重隸屬關係。無論使用何種閾值，這種過度代表的情況依然存在。大多數擁有多重隸屬關係的作者是職業生涯中期的流動者，而非在學術界發表初步論文後進入業界或非營利研究機構的研究生。相對於整個網絡，學術界人士在中心性排名中也佔據了過高的比例，這表明少數明星研究人員與擁有多重隸屬關係的作者一起，在協作中發揮了巨大的影響力。

這是機構層面的相同分析：

圖 2：方法

節點和文字大小由語料庫中包含至少一名該機構作者的論文數量決定。在擁有多個機構的論文中，邊的權重計算為 ln(1 + (來自 A 的作者數 × 來自 B 的作者數)) —— 這意味著我們假設如果一項協作涉及組織之間更多的接觸點，則該協作「更強」。例如，在一篇有 10 位作者來自機構 A 和 B 的論文中，如果兩機構各有 5 位作者，其邊的強度會高於 9 比 1 的分布。

點擊此處查看高解析度版本。

圖 2：顏色圖例

我們發現了另一個包含絕大多數（95.6%）節點的巨大組件。特徵向量中心性（eigenvector centrality）的前幾名由頂尖大學佔據。儘管 Anthropic、OpenAI 和 DeepMind 單一機構產出的論文最多，但排名卻低得多，這表明其研究活動總體上比學術和非營利機構更為封閉。接近零的同類匹配係數（assortativity, 0.087）支持了我們的直覺，即 AI 安全可能是由跨機構協作維繫的。這種由跨類型聯繫橋接的密集同類型集群，在一個完全統一的領域或在互不干涉但重疊的社群情況下，都是難以預見的。

在收集論文時，我們的目標是建立一個從業者心目中「經典」的代表——因此，數據集是透過手動迭代編譯的。我們從里程碑式的論文開始建立語料庫，並透過追蹤 X、LessWrong、Alignment Forum 以及對著名研究人員的 Google Scholar 搜尋來擴展。我們將其與四份專家策劃的閱讀清單進行了交叉比對：LessWrong 的 Best Of 標籤（所有年份） AI 安全部分、柏克萊 CHAI 的推薦材料、Boaz Barak 在哈佛的 AI 安全教學大綱，以及 Dan Hendrycks 的教科書《Introduction to AI Safety, Ethics and Society》中的參考文獻。目前，語料庫包含 200 篇論文，由隸屬於 363 個不同機構的 1815 位不重複作者撰寫。請在此查看完整的納入論文列表。

這些圖表在直覺上是否準確，或者是否有什麼地方看起來不對勁？您覺得最引人注目的是什麼？納入的論文是否捕捉到了您認為的 AI 安全研究核心？是否有什麼可能被錯誤列入或遺漏，從而導致網絡失真？

這份匿名回饋表單只需五分鐘即可完成，我們將開放一個月。一旦我們有機會收集並分析回覆，我們將撰寫後續文章說明我們做了哪些更改，並向您展示更新後的網絡可視化結果。

感謝閱讀！如果您想直接與我們聊天或發送您的想法，請透過 akt2147 at columbia dot edu 以及 jl5770 at columbia dot edu 聯繫我們。

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

是什麼凝聚了 AI 安全領域？從 200 篇論文看共同作者網絡