電路更新 – 2024年9月

Anthropic Research·超過 1 年前

Anthropic 研究團隊發布了其在可解釋性領域的最新進展，涵蓋了對語言模型特徵的監控與控制，以及關於 Claude 模型潛在應用和風險的探索。