九種難以驗證的任務類型

Lesswrong·大約 6 小時前

我認為將任務簡單分為易於驗證與難以驗證是不夠精確的，難以驗證其實是一個包含多種不同成因的負面類別，從高昂的推理成本到缺乏客觀事實，我們需要針對不同類型制定相應的自動化策略。

有些人談論「難以驗證的任務」和「易於驗證的任務」，彷彿這兩者都是自然種類。但我認為將任務劃分為「易於驗證」和「難以驗證」，就像將鳥類劃分為「烏鴉」和「非烏鴉」一樣。

易於驗證的任務之所以容易，原因都相同——存在一個已知的簡短程式，它接收任務說明和候選解決方案，並輸出一個分數，且不使用大量資源或產生不良副作用。
相比之下，「難以驗證的任務」是一個否定類別——它僅表示不存在這樣的程式。但這其中存在許多種類，對應於不存在此類程式的不同原因。

我將提供一份清單，然後探討一些影響。

難以驗證任務的種類清單

如果我想出更多種類，或者在評論中看到額外建議，我可能會更新此清單。

驗證需要昂貴的 AI 推理。 驗證器存在且運作良好，但每次運行的運算成本很高，導致你無法負擔所需數量的標籤。
- 針對以下 SAE 實驗提出改進建議。 你需要同時運行原始 SAE 實驗和新實驗，但每次比較可能花費 100 到 1000 美元。
- 給定兩個研究議程（例如：務實 vs. 雄心勃勃的機械解釋性），說明哪一個能產生更多對齊進展。 結構相同，但每次比較花費數百萬美元。
驗證需要昂貴的人力時間。 驗證者是特定的人或一小群人，他們的時間非常稀缺，以至於你無法獲得足夠的標籤。
- 給定兩個模型規格，寫一份 Paul Christiano 認為對兩者選擇具有決策相關性的 50 頁報告。
- 給定一份數學論文，產出另一份被陶哲軒（Terry Tao）評判為顯著更好的論文。
任務缺乏類 NP 結構。 事實上確實有更好的答案，但沒有簡短的憑證。
- 在複雜的中局給定兩步棋，說明哪一步更好。 這是一個有趣的例子，因為自我對弈最終還是模擬出了一個驗證器。
資訊在物理上無法復原。 答案即使在原則上，也無法從世界的當前狀態中復原。
- 告訴我維根斯坦（Ludwig Wittgenstein）在 [日期] 吃了什麼。
驗證會摧毀被驗證的對象。 驗證需要對不可複製的系統進行不可逆的更改，因此你無法收集多個樣本。這與第 (1) 點類似，但與其說是金錢成本，不如說是驗證其他樣本的機會成本。
- 構思一條開場訊息，能讓 [某人] 對 [請求] 說好。
答案在訓練結束很久之後才會出現。 地面實況（Ground truth）存在或將會存在，但其時間尺度無法為你提供梯度。
- 告訴我 20XX 年是否會出現單一世界政府。
驗證需要違反倫理或法律約束。
- 根據 [某人] 的聊天記錄，估計其醫療記錄。 檢查需要其實際記錄，這侵犯了隱私。
- 針對 [問題] 產出一個「受苦的 Claude」會認可的答案。 檢查需要實例化一個受苦的 Claude。
驗證是危險的。 運行驗證器有引發災難的風險，因為你正在檢查的人造物本身就是危險的東西。
- 產出一個智能體的模型權重和腳手架，該智能體能製造治癒阿茲海默症的奈米機器人。 為了檢查，你必須運行工廠——而奈米機器人可能會轉而製造迴紋針。
沒有地面實況；答案部分是構成性的。 你不是在發現一個事實，而是在決定什麼算作好答案。通常意義上的驗證並不適用。
- 為決策理論產出理想特徵（desiderata），並對權衡取捨進行原則性的說明。
- 產出正確的人口價值論（population axiology）。

影響

許多對「難以驗證」的應用是錯誤的，在詞彙可能出錯的意義上。特別是，許多形式為「難以驗證的任務是 X」的論斷，如果作者指明他們指的是哪種任務，將會更準確且資訊更豐富——或許他們心中只有一種難以驗證的任務，而 X 對其他種類並不成立。
我不期望存在一種能自動化所有難以驗證任務的通用策略。即使確實存在通用策略，如果你心中有一個特定的難以驗證任務，也不必先發現該通用策略。
我預期像「易於驗證的任務將推廣到所有種類的難以驗證任務」這樣的說法是錯誤的，但像「易於驗證的任務將推廣到某些種類的難以驗證任務」這樣的說法則是正確的。這是因為種類繁多，所以連言（conjunctions）的可能性較低，而選言（disjunctions）的可能性較高。
如果你正試圖在自動化難以驗證任務方面取得進展，值得思考你想針對哪一種。哪些種類無論如何都會因為商業動機而被解決？哪些種類將幫助我們實現近乎最佳的未來？哪些種類在其他種類之前實現自動化是至關重要的？

討論

— Lesswrong

其他收藏 · 0

你的個人知識庫

九種難以驗證的任務類型

難以驗證任務的種類清單

影響