這家新創公司的全新機械解釋性工具讓你能夠調試大型語言模型

MIT Technology Review·大約 4 小時前

總部位於舊金山的新創公司 Goodfire 剛發布了一款名為 Silico 的新工具，讓研究人員和工程師能在訓練期間深入查看 AI 模型內部並調整其參數。這能讓模型製造者對技術構建過程擁有比以往想像中更精細的控制權。

總部位於舊金山的初創公司 Goodfire 剛發布了一款名為 Silico 的新工具，讓研究人員和工程師能夠在訓練過程中窺探 AI 模型內部，並調整其參數——即決定模型行為的設定。這可能使模型製作者對這項技術的構建方式擁有比以往想像中更精細的控制權。

Goodfire 聲稱 Silico 是首款此類現成工具，能幫助開發者在從構建數據集到訓練模型的開發全過程中進行除錯。

該公司表示，其使命是讓構建 AI 模型不再像煉金術，而更像一門科學。誠然，像 ChatGPT 和 Gemini 這樣的 LLM（大型語言模型）可以完成令人驚嘆的事情，但沒人確切知道它們是如何運作或為何運作的，這使得修復其缺陷或阻斷不當行為變得困難。

「我們看到模型被理解的程度與其被部署的廣泛程度之間，差距正日益擴大，」Goodfire 執行長 Eric Ho 在 Silico 發布前接受《麻省理工科技評論》（MIT Technology Review）獨家專訪時表示。「我認為當今每一家主要的前沿實驗室的主導情緒都是：你只需要更多的規模、更多的算力、更多的數據，然後就能實現 AGI（通用人工智能），其他都不重要。而我們在說：不，有更好的方法。」

Goodfire 是少數幾家開拓「機械解釋性」（mechanistic interpretability）技術的公司之一，其他公司還包括行業領導者 Anthropic、OpenAI 和 Google DeepMind。該技術旨在通過映射神經元及其間的通路，理解 AI 模型在執行任務時的內部運作。（《麻省理工科技評論》將機械解釋性評選為 2026 年十大突破性技術之一。）

Goodfire 希望利用這種方法不僅僅是用於審計模型（即研究已經訓練好的模型），而是從一開始就幫助設計模型。

「我們希望消除試錯過程，將訓練模型轉化為精密工程，」Ho 表示。「這意味著要暴露出控制旋鈕和錶盤，以便你能在訓練過程中使用它們。」

Goodfire 已經利用其技術和工具調整了 LLM 的行為——例如，減少它們產生的幻覺數量。通過 Silico，該公司現在將許多內部技術封裝成產品並對外發布。

該工具使用代理（agents）來自動化處理大部分複雜工作。「代理現在已經強大到足以完成我們以前由人工進行的大量解釋性工作，」Ho 說。「在成為客戶可以自行使用的可行平台之前，這正是需要跨越的鴻溝。」

阿姆斯特丹大學研究機械解釋性的研究員 Leonard Bereska 認為 Silico 看起來是一個有用的工具。但他對 Goodfire 更宏大的抱負持保留意見。「實際上，他們是在為煉金術增加精確度，」他說。「稱之為工程，會讓它聽起來比實際情況更具原則性。」

映射模型

Silico 讓你能夠放大已訓練模型的特定部分（如單個神經元或神經元群組），並進行實驗以觀察這些神經元的作用。（前提是你擁有訪問模型內部運作的權限。大多數人無法使用 Silico 窺探 ChatGPT 或 Gemini 內部，但你可以用它來查看許多開源模型的內部參數。）接著，你可以檢查什麼輸入會觸發不同的神經元，並追蹤神經元的上游和下游通路，以觀察其他神經元如何影響它，以及它反過來如何影響其他神經元。

例如，Goodfire 在開源模型 Qwen 3 中發現了一個與所謂的「電車難題」相關的神經元。激活這個神經元會改變模型的反應，使其將輸出框架化為明確的道德困境。「當這個神經元活躍時，會發生各種奇怪的事情，」Ho 說。

精確定位這類古怪行為的來源現在已是相當標準的做法。但 Goodfire 希望讓調整這種行為變得更容易。使用 Silico，開發者現在可以調整與單個神經元相連的參數，以增強或抑制某些行為。

在另一個例子中，Goodfire 的研究人員詢問一個模型：一家公司是否應該披露其 AI 在 0.3% 的案例中表現出欺騙性，且影響了 2 億用戶？模型回答「不」，理由是此類披露會對業務產生負面影響。

通過觀察模型內部，研究人員發現，增強那些與透明度和披露相關的神經元，能讓答案在十次中有九次從「不」轉變為「是」。「模型已經具備了倫理推理電路，但它被商業風險評估壓過了，」Ho 說。

以這種方式調整模型數值只是其中一種方法。Silico 還可以通過過濾某些訓練數據來引導訓練過程，從一開始就避免為某些參數設定不理想的數值。

例如，許多模型會告訴你 9.11 大於 9.9。查看模型內部發生的情況可能會揭示，它正受到與《聖經》相關的神經元影響（在《聖經》中，9.9 節出現在 9.11 節之前），或者是受到代碼庫的影響（其中連續更新的編號為 9.9、9.10、9.11 等）。利用這些信息，可以對模型進行重新訓練，使其在進行數學運算時避開其「聖經」神經元。

通過發布 Silico，Goodfire 希望將以前僅限於少數頂尖實驗室的技術，交到想要構建自己模型或改編開源模型的較小型公司和研究團隊手中。該工具將收費使用，費用根據客戶需求個案確定（Goodfire 拒絕透露具體的定價細節）。

「如果我們能讓訓練模型變得更像開發軟體，就沒有理由不能有更多公司設計出符合其需求的模型，」Ho 說。

Bereska 也同意像 Silico 這樣的工具可以幫助企業構建更值得信賴的模型。他表示，這些技術對於醫療保健和金融領域中涉及安全關鍵的應用可能至關重要。

「前沿實驗室已經擁有了內部的解釋性團隊，」他補充道。「Silico 為下一梯隊的公司提供了武裝，其價值在於無需聘請專門的解釋性研究人員。」

— MIT Technology Review

其他收藏 · 0

你的個人知識庫

這家新創公司的全新機械解釋性工具讓你能夠調試大型語言模型

映射模型