博弈思維對模型訓練、評估與監管至關重要

Lesswrong·18 天前

我們分享了一篇研究前沿模型訓練中博弈思維出現的文章，指出博弈思維比評估意識更具通用性，且其言語化程度可能會在訓練過程中下降。

我們分享一篇調查前沿訓練過程中「策略博弈」（metagaming）推理如何出現的文章。

我們也分享了一些定量分析、定性範例以及即將開展的工作。