LeelaPieceOdds 的數據分析

Lesswrong·6 個月前

我分析了 LeelaPieceOdds 的數據，以觀察這款西洋棋機器人在不同時限與積分下，讓子給人類玩家時的表現。結果顯示，儘管起始戰力大幅落後，它仍能透過利用人類的失誤來反敗為勝，這讓我對結構性優勢與智力差異之間的平衡有了更深的見解。

我一直對 LeelaPieceOdds 的實力感到好奇，所以我下載了一堆數據並繪製成圖表。

背景介紹：Leela 是一款西洋棋機器人，而這個版本經過訓練，專門在讓子（handicap）的情況下進行對局。

這是 BBNN 讓子，意指 Leela 在開局時沒有主教（Bishops）和騎士（Knights）。我最初是從 simplegeometry 的評論中聽說 LeelaQueenOdds 的，從那以後我偶爾會跟它對弈。LeelaPieceOdds 是擁有更多樣化讓子選項的版本，這對我來說更有趣，因為 LeelaQueenOdds 幾乎總是能打敗我。

與 Leela 對弈感覺就像在疲勞狀態下下棋。我會不斷犯下低級失誤（blundering）。它並非不可戰勝，當你贏它時，感覺並不覺得有那麼困難。但大多數情況下，它總能克服開局時的巨大劣勢。

數據資料

雙主教、雙騎士 (Bishop-Bishop-Knight-Knight)

如何閱讀圖表

橘色代表人類玩家獲勝。標題包含讓子種類^([1])和時間控制（時限）。我按時間控制（超快棋 Bullet、快棋 Blitz、快速棋 Rapid）對數據進行了分類，這代表人類在整場對局中被允許思考的總時間。Leela 總是下得很快，所以時間控制基本上只影響人類。

作為參考，這是我使用的時間控制分類：

超快棋 (Bullet)：≤ 3 分鐘，通常約 1 分鐘。
快棋 (Blitz)：≤ 8 分鐘，通常約 5 分鐘。
快速棋 (Rapid)：≤ 25 分鐘，通常約 15 分鐘。
古典棋 (Classical)：≥ 25 分鐘。

通常超快棋和古典棋的數據不足以顯示出有趣的結果，所以我通常將其省略。^([2])

在 x 軸標籤中，n 是該區間內的對局數量。通常這個數值太低，無法得出可靠的結論。我將 Leela 執白和執黑的對局合併在一起，儘管執白具有微弱優勢。

人類玩家評分（在 x 軸上）是該玩家在對陣 Leela 時，在該特定時限下的 Lichess 評分^([3])。由於 Lichess 為每種時限追蹤不同的評分，因此圖表在不同時限之間不具備精確的可比性。

雙騎士 (Knight-Knight)

雙主教 (Bishop-Bishop)

城堡、騎士 (Rook-Knight)

雙主教、單騎士 (Bishop-Bishop-Knight)

城堡、雙騎士 (Rook-Knight-Knight)

城堡、雙主教 (Rook-Bishop-Bishop)

皇后、單騎士 (Queen-Knight)

皇后、單城堡 (Queen-Rook)

皇后、雙騎士 (Queen-Knight-Knight)

皇后、雙主教 (Queen-Bishop-Bishop)

皇后、城堡、騎士 (Queen-Rook-Knight)

皇后、雙城堡 (Queen-Rook-Rook)

1400-1499 評分段的峰值是由一位玩了超過一千局的單一用戶造成的。

想法

我認為統計數據偏向有利於 Leela

根據我玩不同讓子棋的經驗，我的勝率往往比數據顯示的要高一點。我不確定原因，但我有幾個猜測：

當人們開始穩定獲勝時，他們就會停止遊玩（或換成更難的讓子）。但持續輸球很有趣，所以他們會繼續玩下去。
因為 Leela 下得很快，人們會模仿它也下得很快。這導致他們的表現比對陣人類時更差。

如果你想看到最令你印象深刻的演示，我建議選擇一個你的評分段勝率低於 1/3 的讓子。

頂端還有多少提升空間？

原則上，LeelaPieceOdds 還能改進多少？我懷疑有中等程度但非巨大的空間。一個簡單的改變是增加用於搜索的計算量。我非常好奇這會產生多大的差異，因為深度搜索有利於機器。

一個更困難的改變是針對特定玩家進行適應。Leela 通過利用人類棋局中的弱點來運作，但它是使用聚合的人類對局模型訓練出來的。原則上，它可以通過分析特定玩家過去的對局，並為其可能的錯誤建立更準確的模型，從而適應特定玩家。

與 AI 控制關鍵點（cruxes）的相關性

AI 控制的支持者希望將研究型 AI 關在「盒子」裡，並讓它們為我們解決對齊（alignment）問題。AI 毀滅的故事通常涉及 AI 從這種情況中逃脫。讓子棋可以是這種情況的一個微小類比，^([4]) 因此人們可能希望這能為支持或反對「控制」提供一些實證證據。但遺憾的是，我們大多與控制支持者在「接近人類水平的 AI 逃脫可能性」上達成共識。我認為控制行不通的原因與超智能的能力無關，而是：

區分「好的研究」與「為了看起來好而訓練出來的 AI 生成研究」需要極高的人力成本。因此，在不易驗證的問題上，我們無法獲得巨大的研究加速。
當我們的 AI 無法解決問題時，我們不可避免地會繼續訓練它變得更聰明，並給予它更多工具，即使它看起來越來越有能力逃脫。

儘管目前有大量關於這些觀點的相關證據，但顯然這些證據很容易被扭曲以符合各種世界觀。

與對齊領域外人士關鍵點的相關性

許多人有一種強烈的直覺，認為在衝突中，結構性優勢往往能勝過智力差異。與 Leela 下棋是一個很好的練習，可以為這種直覺增加一些細微的差別。一位朋友說，在我們聊過 Leela 之後，他們更好地理解了 AI 風險。

^(^) 選項有 NN、BB、RN、RR、BBN、RNN、RBB、QN、BBNN、QR、QNN、QBB、QRN 或 QRR。字母代表 Leela 在開局時缺少的棋子。N=騎士，B=主教，R=城堡，Q=皇后。
^(^) 例如，這是 BBNN 的古典棋時限數據：
^(^) 請注意，Lichess 和 Chess.com 的評分在低分段差異顯著，但在 2000 分以上開始變得相當接近。
^(^) 我認為確保強大 AI 受到控制的案例中的這一段列出了 AI 的劣勢，使這個類比變得相當清晰：

為了讓你的控制評估保持保守，紅隊（red team）在尋找攻擊方面的能力必須至少與「有預謀的模型」（scheming models）一樣好，這樣如果紅隊未能發現任何有效的攻擊，就意味著有預謀的 AI 也會未能發現有效的攻擊。我們還需要能夠以穩健的方式衡量模型的能力，使其不受該模型本身破壞我們評估的影響。^([11]) 我們認為，對於早期的、具有變革性用途的 AI（但非任意強大的 AI），尋找足夠好的攻擊並穩健地衡量其能力似乎是可行的，因為與我們的紅隊相比，我們的 AI 具有顯著的劣勢：

較少的序列思考時間。目前的 LLM 只能在自然語言推理之外進行少量的序列推理。因此，如果未來的強大 AI 在這方面與目前的 LLM 相似，並且我們監控 AI 的自然語言推理中是否存在問題話題（如推理如何規避我們的對策），我們就可以確保 AI 為了突破我們的對策，需要在單次前向傳播中想出其策略。即使未來的 AI 不受此限制，我們仍期望能夠對序列推理或在不同實例之間共享不可解釋的狀態（「神經元語言」記憶）施加一些重要的限制。相比之下，我們的紅隊被允許利用大量的序列時間、團隊協作和 AI 輔助來尋找攻擊方式和誘發能力的方法。^([12])^([13])

較少關於對策的信息。

很少練習，沒有針對對策的迭代。當紅隊嘗試一種策略並完全失敗時，他們可以聳聳肩，從失敗中學習並再次嘗試。但如果 AI 失敗並被抓獲，它的處境可能會變得糟糕得多。而且即使 AI 沒有被抓獲，它們也可能因為狀態和記憶的限制而無法從失敗中學習。

— Lesswrong

其他收藏 · 0