九種難以驗證的任務類型

Lesswrong·

我認為將任務簡單分為易於驗證與難以驗證是不夠精確的,難以驗證其實是一個包含多種不同成因的負面類別,從高昂的推理成本到缺乏客觀事實,我們需要針對不同類型制定相應的自動化策略。

有些人談論「難以驗證的任務」和「易於驗證的任務」,彷彿這兩者都是自然種類。但我認為將任務劃分為「易於驗證」和「難以驗證」,就像將鳥類劃分為「烏鴉」和「非烏鴉」一樣。

  • 易於驗證的任務之所以容易,原因都相同——存在一個已知的簡短程式,它接收任務說明和候選解決方案,並輸出一個分數,且不使用大量資源或產生不良副作用。
  • 相比之下,「難以驗證的任務」是一個否定類別——它僅表示不存在這樣的程式。但這其中存在許多種類,對應於不存在此類程式的不同原因。

我將提供一份清單,然後探討一些影響。

難以驗證任務的種類清單

如果我想出更多種類,或者在評論中看到額外建議,我可能會更新此清單。

  • 驗證需要昂貴的 AI 推理。 驗證器存在且運作良好,但每次運行的運算成本很高,導致你無法負擔所需數量的標籤。

    • 針對以下 SAE 實驗提出改進建議。 你需要同時運行原始 SAE 實驗和新實驗,但每次比較可能花費 100 到 1000 美元。
    • 給定兩個研究議程(例如:務實 vs. 雄心勃勃的機械解釋性),說明哪一個能產生更多對齊進展。 結構相同,但每次比較花費數百萬美元。
  • 驗證需要昂貴的人力時間。 驗證者是特定的人或一小群人,他們的時間非常稀缺,以至於你無法獲得足夠的標籤。

    • 給定兩個模型規格,寫一份 Paul Christiano 認為對兩者選擇具有決策相關性的 50 頁報告。
    • 給定一份數學論文,產出另一份被陶哲軒(Terry Tao)評判為顯著更好的論文。
  • 任務缺乏類 NP 結構。 事實上確實有更好的答案,但沒有簡短的憑證。

    • 在複雜的中局給定兩步棋,說明哪一步更好。 這是一個有趣的例子,因為自我對弈最終還是模擬出了一個驗證器。
  • 資訊在物理上無法復原。 答案即使在原則上,也無法從世界的當前狀態中復原。

    • 告訴我維根斯坦(Ludwig Wittgenstein)在 [日期] 吃了什麼。
  • 驗證會摧毀被驗證的對象。 驗證需要對不可複製的系統進行不可逆的更改,因此你無法收集多個樣本。這與第 (1) 點類似,但與其說是金錢成本,不如說是驗證其他樣本的機會成本。

    • 構思一條開場訊息,能讓 [某人] 對 [請求] 說好。
  • 答案在訓練結束很久之後才會出現。 地面實況(Ground truth)存在或將會存在,但其時間尺度無法為你提供梯度。

    • 告訴我 20XX 年是否會出現單一世界政府。
  • 驗證需要違反倫理或法律約束。

    • 根據 [某人] 的聊天記錄,估計其醫療記錄。 檢查需要其實際記錄,這侵犯了隱私。
    • 針對 [問題] 產出一個「受苦的 Claude」會認可的答案。 檢查需要實例化一個受苦的 Claude。
  • 驗證是危險的。 運行驗證器有引發災難的風險,因為你正在檢查的人造物本身就是危險的東西。

    • 產出一個智能體的模型權重和腳手架,該智能體能製造治癒阿茲海默症的奈米機器人。 為了檢查,你必須運行工廠——而奈米機器人可能會轉而製造迴紋針。
  • 沒有地面實況;答案部分是構成性的。 你不是在發現一個事實,而是在決定什麼算作好答案。通常意義上的驗證並不適用。

    • 為決策理論產出理想特徵(desiderata),並對權衡取捨進行原則性的說明。
    • 產出正確的人口價值論(population axiology)。

影響

  • 許多對「難以驗證」的應用是錯誤的,在詞彙可能出錯的意義上。特別是,許多形式為「難以驗證的任務是 X」的論斷,如果作者指明他們指的是哪種任務,將會更準確且資訊更豐富——或許他們心中只有一種難以驗證的任務,而 X 對其他種類並不成立。
  • 我不期望存在一種能自動化所有難以驗證任務的通用策略。即使確實存在通用策略,如果你心中有一個特定的難以驗證任務,也不必先發現該通用策略。
  • 我預期像「易於驗證的任務將推廣到所有種類的難以驗證任務」這樣的說法是錯誤的,但像「易於驗證的任務將推廣到某些種類的難以驗證任務」這樣的說法則是正確的。這是因為種類繁多,所以連言(conjunctions)的可能性較低,而選言(disjunctions)的可能性較高。
  • 如果你正試圖在自動化難以驗證任務方面取得進展,值得思考你想針對哪一種。哪些種類無論如何都會因為商業動機而被解決?哪些種類將幫助我們實現近乎最佳的未來?哪些種類在其他種類之前實現自動化是至關重要的?

討論

Lesswrong

相關文章

其他收藏 · 0