我曾試圖使其更易理解的問題
我整理了一系列致力於讓 AI 風險問題變得更「易於理解」的作品,涵蓋哲學問題、人類與 AI 安全以及策略挑戰,旨在為研究人員、決策者和公眾提供指引。這份清單彙整了需要進一步釐清的關鍵領域,以期能應對人工智慧帶來的潛在威脅。
回顧過去,我大部分的智力產出似乎都可以被描述為清晰化(legibilizing)的工作,即試圖讓我自己和他人更能理解 AI 風險中的某些問題。我將相關的文章和評論整理成以下列表,這也可以作為一份部分指南,指出哪些問題可能需要進一步清晰化——特別是針對 LW/理性主義者社群以外的對象,包括 AI 研究人員、資助者、公司領導者、政府決策者、他們的顧問(包括未來的 AI 顧問)以及一般大眾。
-
特定哲學與對齊想法的問題
-
人類-AI 安全(源於人類天性與 AI 設計之間相互作用的生存風險 [x-risks] 與痛苦風險 [s-risks])
-
「道德是可怕的」(人類道德往往是地位博弈放大人類價值中隨機方面的結果,並帶來令人恐懼的後果)
-
權力使人腐敗(或顯露本性)(AI 賦予的權力,例如對未來太空殖民地或龐大虛擬環境的控制權,可能會腐蝕人類價值,或者揭示出令人沮喪的本性)
-
元問題 / 策略
-
AI 風險具有高度析取性,可能導致暫停/放緩 AI 研發所獲得的時間具有遞增的邊際回報(換句話說,與較長時間的暫停相比,短暫暫停的價值低得令人驚訝)
-
來自後 AGI 經濟/動態的風險,特別是高度的協調能力導致規模經濟的增加以及資源/權力的集中
-
將這一切記錄在同一個地方後,很難不感到一絲絕望,覺得即使盡了最大的努力,也無法讓相關人員理解所有這些問題。或許希望的一個來源是,它們可以被未來的 AI 顧問所理解。由於這些問題中有許多本質上是哲學性的,這似乎又回到了我最近經常談論的 AI 哲學能力問題,而這個問題本身目前似乎在很大程度上仍是難以理解的,因此被忽視了。
或許值得以 @WillPetillo 與我在前一篇文章下方的討論中提到的一點作為總結:與其試圖讓難以理解的問題變得清晰,一種潛在更有影響力的方法是讓關鍵決策者意識到,可能存在著他們(甚至他們的顧問)無法理解的重要安全問題,因此僅根據清晰可見的安全問題現狀來做出極具影響力的決策(例如關於 AI 開發或部署的決策)是非常冒險的。
相關文章