請勿自行創造你的元倫理學

Lesswrong·5 個月前

類比密碼學中不應使用未經審核算法的原則，我認為我們不應在人工智慧等高風險系統中部署自創的元倫理框架，因為過度自信的風險極高，且缺乏明確的「攻擊」手段來證明這些理論的錯誤。

有一天，當我在一家大型軟體公司的密碼學研究部門擔任實習生時，我的老闆交給我一項任務：破解一個交由我們審查的偽隨機數生成器（PRNG）。這是另一個部門的人發明的，並計劃在他們的產品中使用，所以希望我們能先看一看。這個人肯定很有政治影響力，或者對自己特別有信心，因為他拒絕了標準的建議——即業餘人士想出的任何東西都很可能是不安全的，他應該改用那些已經過廣泛密碼分析（破解）考驗的成熟現成密碼演算法。

我的老闆認為他必須透過提出一種實際的攻擊方式（即：在不知道密鑰/種子的情況下，僅根據其過去的輸出來預測其未來輸出的方法），來證明該 PRNG 的不安全性。研究部門有三名全職的專業密碼學家，但他們都不專精於對稱密碼學（涵蓋此類 PRNG）的密碼分析，因此他們可能需要花一些時間才能想出攻擊方法。我的時間顯然不那麼值錢，而且我的老闆可能認為我可以從中獲益，所以我接下了這個任務。

在那之前，我對對稱密碼分析也沒有興趣、知識或經驗，但仍然能夠迅速對該提議的 PRNG 演示出一種乾淨俐落的攻擊，並成功說服提議者放棄並使用成熟的演算法。像這樣的經驗非常普遍，以至於密碼學界的每個人都能很快學會，對自己的想法過度自信是多麼容易的一件事，而且許多人都能切身感受到大腦以毫無根據的自信背叛自己的那種感覺。因此，「不要自己搞密碼學」（don't roll your own crypto）已深深植根於這種文化和人們的思想中。

要是能在「應用哲學」領域（例如 AI 對齊）也這麼容易建立起類似的共識就好了！唉，與密碼學不同，在哲學領域很少能提出「乾淨俐落的攻擊」來清楚地證明某個哲學觀點是錯誤或崩潰的。通常能期望的最高限度，也只是證明某種推論是違反直覺的，或與其他流行觀點相矛盾。但由於「一個人的肯定前件（modus ponens）是另一個人的否定後件（modus tollens）」，如果某人足夠願意「硬吞苦果」（bite bullets），那麼就不可能透過這種方式直接說服他們是錯的（或應該減少自信）。這變得更加困難，因為與密碼學不同，哲學沒有公認的「標準庫」可以依賴。（我嘗試這樣做但幾乎總是失敗的實際經驗，是我對 AI 生存安全性如此悲觀的另一個原因，甚至與大多數其他關注生存風險的人相比也是如此。）

所以我認為我必須嘗試一些更「後設」（meta）的方法，比如將上述情況與在其他領域（如密碼學）中多麼容易過度自信進行類比。另一種後設論證思路是考慮有多少人持有堅定但互不相容的哲學立場。在「無知之幕」背後，難道你不希望每個人都對自己的想法少一點自信嗎？或者思考：「這不太可能像道德/價值觀那樣是一個主觀問題，那麼我是對的而他們全都是錯的機率有多大？如果我真的是對的，為什麼我不能說服大多數人？是否有理由或證據表明我比他們更理性或更具哲學素養？」

遺憾的是，我相當不確定這些後設論證是否有效。如果它們真的改變了任何人的想法，請在評論區或私下告訴我。或者，如果有人有更好的主意來傳播「不要自己搞元倫理學」（don't roll your own metaethics）^([1]) 的迷因，請貢獻你的想法。當然，也歡迎反駁意見，例如，如果人們自己搞元倫理學實際上是有好處的，而我忽略了這一點。

^(^)為了預防可能的誤解，我並不是指「不要嘗試思考新的元倫理學觀點」，而是指「不要對你的想法過於自信，以至於願意以一種會產生重大後果的方式部署它們，或者構建關鍵性依賴於這些想法的重大影響系統」。同樣地，「不要自己搞密碼學」並不意味著永遠不要嘗試發明新的密碼學，而是除非經過廣泛的審查並達成其可能安全的共識，否則不要部署它。

— Lesswrong

你的個人知識庫

請勿自行創造你的元倫理學