Anthropic 的可解釋性研究

Anthropic Research·大約 1 個月前

可解釋性團隊的使命是發現並理解大型語言模型的內部運作機制，以此作為人工智慧安全與正面成果的基礎，並透過跨學科方法解決從偏見到自主有害行為等各種問題。

可解釋性

可解釋性團隊的使命是發現並理解大型語言模型內部的運作機制，以此作為 AI 安全與正面成果的基礎。

影片縮圖

在不理解神經網路的情況下，很難對其安全性進行推理。可解釋性團隊的目標是能夠詳細解釋大型語言模型的行為，並以此解決從偏見、誤用到自主有害行為等各種問題。

部分可解釋性研究人員擁有深厚的機器學習背景——團隊中的一名成員常被認為是機械可解釋性（mechanistic interpretability）的開創者，而另一名成員則是著名的縮放定律（scaling laws）論文作者。其他成員則來自天文學、物理學、數學、生物學、數據視覺化等領域。

影片縮圖

電路追蹤（Circuit tracing）讓我們能觀察 Claude 的思考過程，揭示了一個在轉化為語言之前進行推理的共享概念空間——這表明模型可以用一種語言學習知識，並將其應用於另一種語言。