newsence
Anthropic 的可解釋性研究

Anthropic 的可解釋性研究

Anthropic Research·大約 1 個月前

可解釋性團隊的使命是發現並理解大型語言模型的內部運作機制,以此作為人工智慧安全與正面成果的基礎,並透過跨學科方法解決從偏見到自主有害行為等各種問題。

可解釋性

可解釋性團隊的使命是發現並理解大型語言模型內部的運作機制,以此作為 AI 安全與正面成果的基礎。

影片縮圖

透過理解實現安全

在不理解神經網路的情況下,很難對其安全性進行推理。可解釋性團隊的目標是能夠詳細解釋大型語言模型的行為,並以此解決從偏見、誤用到自主有害行為等各種問題。

多學科方法

部分可解釋性研究人員擁有深厚的機器學習背景——團隊中的一名成員常被認為是機械可解釋性(mechanistic interpretability)的開創者,而另一名成員則是著名的縮放定律(scaling laws)論文作者。其他成員則來自天文學、物理學、數學、生物學、數據視覺化等領域。

影片縮圖

追蹤大型語言模型的思考軌跡

電路追蹤(Circuit tracing)讓我們能觀察 Claude 的思考過程,揭示了一個在轉化為語言之前進行推理的共享概念空間——這表明模型可以用一種語言學習知識,並將其應用於另一種語言。

https://anthropic.com/research/team/interpretability