我曾試圖使其更易理解的問題

Lesswrong·5 個月前

我整理了一系列致力於讓 AI 風險問題變得更「易於理解」的作品，涵蓋哲學問題、人類與 AI 安全以及策略挑戰，旨在為研究人員、決策者和公眾提供指引。這份清單彙整了需要進一步釐清的關鍵領域，以期能應對人工智慧帶來的潛在威脅。

回顧過去，我大部分的智力產出似乎都可以被描述為清晰化（legibilizing）的工作，即試圖讓我自己和他人更能理解 AI 風險中的某些問題。我將相關的文章和評論整理成以下列表，這也可以作為一份部分指南，指出哪些問題可能需要進一步清晰化——特別是針對 LW/理性主義者社群以外的對象，包括 AI 研究人員、資助者、公司領導者、政府決策者、他們的顧問（包括未來的 AI 顧問）以及一般大眾。

哲學問題
- 機率論
- 決策論
- 超越天文級浪費（影響遠大於我們自身之宇宙的可能性）
- 博弈與邏輯不確定性之間的相互作用
- 元倫理學
- 元哲學：1, 2
特定哲學與對齊想法的問題
- 功利主義：1, 2
- 所羅門諾夫歸納法
- 「可證明的」安全性
- CEV（連貫外推意志）
- 可修正性
- IDA（疊代放大與蒸餾，以及許多散見的評論）
- UDASSA
- UDT（通用決策論）
人類-AI 安全（源於人類天性與 AI 設計之間相互作用的生存風險 [x-risks] 與痛苦風險 [s-risks]）
- 人類之間的價值差異/衝突
- 「道德是可怕的」（人類道德往往是地位博弈放大人類價值中隨機方面的結果，並帶來令人恐懼的後果）
- 地位性/零和的人類價值，例如地位
- 分佈偏移作為人類安全問題的來源
- 權力使人腐敗（或顯露本性）（AI 賦予的權力，例如對未來太空殖民地或龐大虛擬環境的控制權，可能會腐蝕人類價值，或者揭示出令人沮喪的本性）
- AI 對人類有意或無意的操控 / 對抗性攻擊
元問題 / 策略
- AI 風險具有高度析取性，可能導致暫停/放緩 AI 研發所獲得的時間具有遞增的邊際回報（換句話說，與較長時間的暫停相比，短暫暫停的價值低得令人驚訝）
- 來自後 AGI 經濟/動態的風險，特別是高度的協調能力導致規模經濟的增加以及資源/權力的集中
- 在受限於生存安全考量的同時，贏得 AI 競賽的難度
- 可能的攻擊優勢使「防禦加速主義」貶值
- 人類在試圖行善時傾向於忽視風險
- AI 哲學能力對於 AI 輔助安全研究以及避免後 AGI 災難性哲學錯誤的必要性
- 難以理解之問題的問題

將這一切記錄在同一個地方後，很難不感到一絲絕望，覺得即使盡了最大的努力，也無法讓相關人員理解所有這些問題。或許希望的一個來源是，它們可以被未來的 AI 顧問所理解。由於這些問題中有許多本質上是哲學性的，這似乎又回到了我最近經常談論的 AI 哲學能力問題，而這個問題本身目前似乎在很大程度上仍是難以理解的，因此被忽視了。

或許值得以 @WillPetillo 與我在前一篇文章下方的討論中提到的一點作為總結：與其試圖讓難以理解的問題變得清晰，一種潛在更有影響力的方法是讓關鍵決策者意識到，可能存在著他們（甚至他們的顧問）無法理解的重要安全問題，因此僅根據清晰可見的安全問題現狀來做出極具影響力的決策（例如關於 AI 開發或部署的決策）是非常冒險的。

— Lesswrong

你的個人知識庫

我曾試圖使其更易理解的問題