newsence
博弈思維對模型訓練、評估與監管至關重要

博弈思維對模型訓練、評估與監管至關重要

Lesswrong·18 天前

我們分享了一篇研究前沿模型訓練中博弈思維出現的文章,指出博弈思維比評估意識更具通用性,且其言語化程度可能會在訓練過程中下降。

延續我們先前關於口語化評測覺察(verbalized eval awareness)的研究

我們分享一篇調查前沿訓練過程中「策略博弈」(metagaming)推理如何出現的文章。

  • 策略博弈是一個比評測覺察更通用、且根據我們的經驗更實用的概念。
  • 它出現在前沿訓練過程中,且不需要在誘餌環境(honeypot environments)中進行訓練。
  • 策略博弈的口語化表達可能會在訓練過程中減少。

我們也分享了一些定量分析、定性範例以及即將開展的工作。

參與討論

https://lesswrong.com/posts/4hXWSw8tzoK9PM7v6/metagaming-matters-for-training-evaluation-and-oversight