可辨識與不可辨識的AI安全問題

Lesswrong·6 個月前

人工智慧安全問題可分為決策者能理解的「顯性」與難以理解的「隱性」問題，前者可能加速冒險部署，而後者則常被忽視。我認為將這些隱性問題轉化為顯性問題具有最高的戰略價值，能避免在生存風險尚未真正解決前就過早部署通用人工智慧。

有些 AI 安全問題對公司領導者和政府決策者而言是顯性的（legible，即顯而易見或易於理解的），這意味著只要這些問題尚未解決（即根據他們掌握的信息顯示為未解決），他們就不太可能部署或允許部署該 AI。但有些問題是隱性的（illegible，即晦澀難懂、難以理解，或處於常見的認知盲區），這意味著即使問題未解決，領導者和決策者仍有很大風險會決定部署或允許部署。（當然，這是一個光譜，但為了便於論述，我將其簡化為二元對立。）

從生存風險（x-risk）的角度來看，研究高度顯性的安全問題其預期價值較低，甚至可能為負。這與研究 AI 能力類似，它會提前通用人工智慧（AGI）或人工超智慧（ASI）的部署日期，從而縮短了解決隱性生存安全問題的時間。相比之下，研究隱性問題（包括嘗試使它們變得更顯性）則不存在這個問題，因此具有更高的預期價值（在其他條件如可行性相等的情況下）。請注意，根據這一邏輯，成功將一個隱性問題轉化為高度顯性的問題，幾乎等同於解決了該問題！

對領導者和決策者而言是隱性的問題，也更有可能對研究人員和資助者而言同樣是隱性的，因此容易被忽視。我認為這些考量一直隱含或直覺地驅動著我對研究問題的優先順序排列，但直到今天才出現在我自覺且明確的推理中。

（這個想法/論點是在我今天醒來時突然出現在腦海中的。我想我的大腦是在試圖弄清楚，為什麼當我聽到 Joe Carlsmith 加入 Anthropic 從事對齊工作時，儘管我反覆說過希望看到更多哲學家從事 AI 對齊/生存安全工作，卻仍感到一種莫名的不安。我現在意識到，我真正想要的是哲學家以及更多的人去研究目前隱性的問題，特別是或首先是透過使這些問題變得更顯性。）

我認為這種動態可能導致了 AI 安全社群內部的普遍分歧。有些人直覺地認為高度顯性的安全工作可能具有負的預期價值，而其他人則繼續認為其具有價值，這或許是因為他們不同意或未意識到這一推理邏輯。我懷疑這種邏輯甚至以前就被明確描述過^([1])，例如在討論研究基於人類回饋的強化學習（RLHF）究竟是淨正面還是淨負面的爭論中^([2])。如果是這樣，我在此的貢獻部分只是將這一概念泛化，並給它一個方便稱呼的名稱。

或許從這一思路中得出的最重要的戰略洞察是：使隱性的安全問題變得更顯性具有最高的極重要性，甚至比直接攻克顯性或隱性問題更重要。前者是因為上述加速時間線的效應；後者是因為在問題依然晦澀難懂、難以理解，或處於包括關鍵決策者在內的許多人的認知盲區時，解決該問題並將解決方案整合到已部署的 AI 中的可能性微乎其微。

編輯：許多人要求提供隱性問題的例子。我寫了一篇新文章，列出了多年來我嘗試使其更顯性的所有 AI 安全問題，部分是為了回應這一要求。其中一些確實隨著時間推移變得更加顯性（部分歸功於我的努力），而另一些對許多重要群體來說仍然在很大程度上是隱性的。

^(^) 我歡迎任何相關的引述或文獻。
^(^) Paul Christiano 的反駁論點，若將其抽象化並以目前的術語表達，或許可以表述為：即使承認這一論點，有時一個較隱性的問題（例如可擴展對齊）會以較顯性的問題（例如當前模型的對齊）作為前提條件。因此，研究像 RLHF 這樣的技術是值得的，這能積累必要的知識和技能，最終解決較隱性的問題。如果是這樣，除了對這種依賴關係的細節以及現有可擴展對齊方法的潛力提出質疑外，我還會請他考慮，是否存在比可擴展對齊更隱性的問題，而研究或瞄準這些問題會更安全且具有更高的價值。

— Lesswrong

你的個人知識庫

可辨識與不可辨識的AI安全問題