共生演化與匯聚性後果論

Lesswrong·

本文探討了強調合作演化整合的共生起源論,與暗示高等智能體可能發展出相似工具性目標的趨向結果論之間的緊張關係。它檢視了這兩種框架如何影響我們對人工智慧對齊的理解,以及未來智能可能走向融合或競爭的潛力。

.mjx-chtml {display: inline-block; line-height: 0; text-indent: 0; text-align: left; text-transform: none; font-style: normal; font-weight: normal; font-size: 100%; font-size-adjust: none; letter-spacing: normal; word-wrap: normal; word-spacing: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0; min-height: 0; border: 0; margin: 0; padding: 1px 0}
.MJXc-display {display: block; text-align: center; margin: 1em 0; padding: 0}
.mjx-chtml[tabindex]:focus, body :focus .mjx-chtml[tabindex] {display: inline-table}
.mjx-full-width {text-align: center; display: table-cell!important; width: 10000em}
.mjx-math {display: inline-block; border-collapse: separate; border-spacing: 0}
.mjx-math * {display: inline-block; -webkit-box-sizing: content-box!important; -moz-box-sizing: content-box!important; box-sizing: content-box!important; text-align: left}
.mjx-numerator {display: block; text-align: center}
.mjx-denominator {display: block; text-align: center}
.MJXc-stacked {height: 0; position: relative}
.MJXc-stacked > * {position: absolute}
.MJXc-bevelled > * {display: inline-block}
.mjx-stack {display: inline-block}
.mjx-op {display: block}
.mjx-under {display: table-cell}
.mjx-over {display: block}
.mjx-over > * {padding-left: 0px!important; padding-right: 0px!important}
.mjx-under > * {padding-left: 0px!important; padding-right: 0px!important}
.mjx-stack > .mjx-sup {display: block}
.mjx-stack > .mjx-sub {display: block}
.mjx-prestack > .mjx-presup {display: block}
.mjx-prestack > .mjx-presub {display: block}
.mjx-delim-h > .mjx-char {display: inline-block}
.mjx-surd {vertical-align: top}
.mjx-surd + .mjx-box {display: inline-flex}
.mjx-mphantom * {visibility: hidden}
.mjx-merror {background-color: #FFFF88; color: #CC0000; border: 1px solid #CC0000; padding: 2px 3px; font-style: normal; font-size: 90%}
.mjx-annotation-xml {line-height: normal}
.mjx-menclose > svg {fill: none; stroke: currentColor; overflow: visible}
.mjx-mtr {display: table-row}
.mjx-mlabeledtr {display: table-row}
.mjx-mtd {display: table-cell; text-align: center}
.mjx-label {display: table-row}
.mjx-box {display: inline-block}
.mjx-block {display: block}
.mjx-span {display: inline}
.mjx-char {display: block; white-space: pre}
.mjx-itable {display: inline-table; width: auto}
.mjx-row {display: table-row}
.mjx-cell {display: table-cell}
.mjx-table {display: table; width: 100%}
.mjx-line {display: block; height: 0}
.mjx-strut {width: 0; padding-top: 1em}
.mjx-vsize {width: 0}
.MJXc-space1 {margin-left: .167em}
.MJXc-space2 {margin-left: .222em}
.MJXc-space3 {margin-left: .278em}
.mjx-test.mjx-test-display {display: table!important}
.mjx-test.mjx-test-inline {display: inline!important; margin-right: -1px}
.mjx-test.mjx-test-default {display: block!important; clear: both}
.mjx-ex-box {display: inline-block!important; position: absolute; overflow: hidden; min-height: 0; max-height: none; padding: 0; border: 0; margin: 0; width: 1px; height: 60ex}
.mjx-test-inline .mjx-left-box {display: inline-block; width: 0; float: left}
.mjx-test-inline .mjx-right-box {display: inline-block; width: 0; float: right}
.mjx-test-display .mjx-right-box {display: table-cell!important; width: 10000em!important; min-width: 0; max-width: none; padding: 0; border: 0; margin: 0}
.MJXc-TeX-unknown-R {font-family: monospace; font-style: normal; font-weight: normal}
.MJXc-TeX-unknown-I {font-family: monospace; font-style: italic; font-weight: normal}
.MJXc-TeX-unknown-B {font-family: monospace; font-style: normal; font-weight: bold}
.MJXc-TeX-unknown-BI {font-family: monospace; font-style: italic; font-weight: bold}
.MJXc-TeX-ams-R {font-family: MJXc-TeX-ams-R,MJXc-TeX-ams-Rw}
.MJXc-TeX-cal-B {font-family: MJXc-TeX-cal-B,MJXc-TeX-cal-Bx,MJXc-TeX-cal-Bw}
.MJXc-TeX-frak-R {font-family: MJXc-TeX-frak-R,MJXc-TeX-frak-Rw}
.MJXc-TeX-frak-B {font-family: MJXc-TeX-frak-B,MJXc-TeX-frak-Bx,MJXc-TeX-frak-Bw}
.MJXc-TeX-math-BI {font-family: MJXc-TeX-math-BI,MJXc-TeX-math-BIx,MJXc-TeX-math-BIw}
.MJXc-TeX-sans-R {font-family: MJXc-TeX-sans-R,MJXc-TeX-sans-Rw}
.MJXc-TeX-sans-B {font-family: MJXc-TeX-sans-B,MJXc-TeX-sans-Bx,MJXc-TeX-sans-Bw}
.MJXc-TeX-sans-I {font-family: MJXc-TeX-sans-I,MJXc-TeX-sans-Ix,MJXc-TeX-sans-Iw}
.MJXc-TeX-script-R {font-family: MJXc-TeX-script-R,MJXc-TeX-script-Rw}
.MJXc-TeX-type-R {font-family: MJXc-TeX-type-R,MJXc-TeX-type-Rw}
.MJXc-TeX-cal-R {font-family: MJXc-TeX-cal-R,MJXc-TeX-cal-Rw}
.MJXc-TeX-main-B {font-family: MJXc-TeX-main-B,MJXc-TeX-main-Bx,MJXc-TeX-main-Bw}
.MJXc-TeX-main-I {font-family: MJXc-TeX-main-I,MJXc-TeX-main-Ix,MJXc-TeX-main-Iw}
.MJXc-TeX-main-R {font-family: MJXc-TeX-main-R,MJXc-TeX-main-Rw}
.MJXc-TeX-math-I {font-family: MJXc-TeX-math-I,MJXc-TeX-math-Ix,MJXc-TeX-math-Iw}
.MJXc-TeX-size1-R {font-family: MJXc-TeX-size1-R,MJXc-TeX-size1-Rw}
.MJXc-TeX-size2-R {font-family: MJXc-TeX-size2-R,MJXc-TeX-size2-Rw}
.MJXc-TeX-size3-R {font-family: MJXc-TeX-size3-R,MJXc-TeX-size3-Rw}
.MJXc-TeX-size4-R {font-family: MJXc-TeX-size4-R,MJXc-TeX-size4-Rw}
.MJXc-TeX-vec-R {font-family: MJXc-TeX-vec-R,MJXc-TeX-vec-Rw}
.MJXc-TeX-vec-B {font-family: MJXc-TeX-vec-B,MJXc-TeX-vec-Bx,MJXc-TeX-vec-Bw}
@font-face {font-family: MJXc-TeX-ams-R; src: local('MathJax_AMS'), local('MathJax_AMS-Regular')}
@font-face {font-family: MJXc-TeX-ams-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_AMS-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_AMS-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_AMS-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-cal-B; src: local('MathJax_Caligraphic Bold'), local('MathJax_Caligraphic-Bold')}
@font-face {font-family: MJXc-TeX-cal-Bx; src: local('MathJax_Caligraphic'); font-weight: bold}
@font-face {font-family: MJXc-TeX-cal-Bw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Caligraphic-Bold.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Caligraphic-Bold.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Caligraphic-Bold.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-frak-R; src: local('MathJax_Fraktur'), local('MathJax_Fraktur-Regular')}
@font-face {font-family: MJXc-TeX-frak-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Fraktur-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Fraktur-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Fraktur-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-frak-B; src: local('MathJax_Fraktur Bold'), local('MathJax_Fraktur-Bold')}
@font-face {font-family: MJXc-TeX-frak-Bx; src: local('MathJax_Fraktur'); font-weight: bold}
@font-face {font-family: MJXc-TeX-frak-Bw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Fraktur-Bold.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Fraktur-Bold.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Fraktur-Bold.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-math-BI; src: local('MathJax_Math BoldItalic'), local('MathJax_Math-BoldItalic')}
@font-face {font-family: MJXc-TeX-math-BIx; src: local('MathJax_Math'); font-weight: bold; font-style: italic}
@font-face {font-family: MJXc-TeX-math-BIw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Math-BoldItalic.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Math-BoldItalic.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Math-BoldItalic.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-sans-R; src: local('MathJax_SansSerif'), local('MathJax_SansSerif-Regular')}
@font-face {font-family: MJXc-TeX-sans-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_SansSerif-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_SansSerif-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_SansSerif-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-sans-B; src: local('MathJax_SansSerif Bold'), local('MathJax_SansSerif-Bold')}
@font-face {font-family: MJXc-TeX-sans-Bx; src: local('MathJax_SansSerif'); font-weight: bold}
@font-face {font-family: MJXc-TeX-sans-Bw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_SansSerif-Bold.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_SansSerif-Bold.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_SansSerif-Bold.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-sans-I; src: local('MathJax_SansSerif Italic'), local('MathJax_SansSerif-Italic')}
@font-face {font-family: MJXc-TeX-sans-Ix; src: local('MathJax_SansSerif'); font-style: italic}
@font-face {font-family: MJXc-TeX-sans-Iw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_SansSerif-Italic.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_SansSerif-Italic.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_SansSerif-Italic.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-script-R; src: local('MathJax_Script'), local('MathJax_Script-Regular')}
@font-face {font-family: MJXc-TeX-script-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Script-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Script-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Script-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-type-R; src: local('MathJax_Typewriter'), local('MathJax_Typewriter-Regular')}
@font-face {font-family: MJXc-TeX-type-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Typewriter-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Typewriter-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Typewriter-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-cal-R; src: local('MathJax_Caligraphic'), local('MathJax_Caligraphic-Regular')}
@font-face {font-family: MJXc-TeX-cal-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Caligraphic-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Caligraphic-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Caligraphic-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-main-B; src: local('MathJax_Main Bold'), local('MathJax_Main-Bold')}
@font-face {font-family: MJXc-TeX-main-Bx; src: local('MathJax_Main'); font-weight: bold}
@font-face {font-family: MJXc-TeX-main-Bw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Main-Bold.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Main-Bold.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Main-Bold.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-main-I; src: local('MathJax_Main Italic'), local('MathJax_Main-Italic')}
@font-face {font-family: MJXc-TeX-main-Ix; src: local('MathJax_Main'); font-style: italic}
@font-face {font-family: MJXc-TeX-main-Iw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Main-Italic.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Main-Italic.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Main-Italic.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-main-R; src: local('MathJax_Main'), local('MathJax_Main-Regular')}
@font-face {font-family: MJXc-TeX-main-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Main-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Main-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Main-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-math-I; src: local('MathJax_Math Italic'), local('MathJax_Math-Italic')}
@font-face {font-family: MJXc-TeX-math-Ix; src: local('MathJax_Math'); font-style: italic}
@font-face {font-family: MJXc-TeX-math-Iw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Math-Italic.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Math-Italic.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Math-Italic.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-size1-R; src: local('MathJax_Size1'), local('MathJax_Size1-Regular')}
@font-face {font-family: MJXc-TeX-size1-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Size1-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Size1-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Size1-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-size2-R; src: local('MathJax_Size2'), local('MathJax_Size2-Regular')}
@font-face {font-family: MJXc-TeX-size2-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Size2-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Size2-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Size2-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-size3-R; src: local('MathJax_Size3'), local('MathJax_Size3-Regular')}
@font-face {font-family: MJXc-TeX-size3-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Size3-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Size3-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Size3-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-size4-R; src: local('MathJax_Size4'), local('MathJax_Size4-Regular')}
@font-face {font-family: MJXc-TeX-size4-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Size4-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Size4-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Size4-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-vec-R; src: local('MathJax_Vector'), local('MathJax_Vector-Regular')}
@font-face {font-family: MJXc-TeX-vec-Rw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Vector-Regular.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Vector-Regular.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Vector-Regular.otf') format('opentype')}
@font-face {font-family: MJXc-TeX-vec-B; src: local('MathJax_Vector Bold'), local('MathJax_Vector-Bold')}
@font-face {font-family: MJXc-TeX-vec-Bx; src: local('MathJax_Vector'); font-weight: bold}
@font-face {font-family: MJXc-TeX-vec-Bw; src /1/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/eot/MathJax_Vector-Bold.eot'); src /2/: url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/woff/MathJax_Vector-Bold.woff') format('woff'), url('https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.2/fonts/HTML-CSS/TeX/otf/MathJax_Vector-Bold.otf') format('opentype')}
(轉載自 SayIt 存檔EA 論壇。)

(對話背景:在 Audrey 的 LessWrong 文章留言區中,plex 建議了各種讀物,並感覺到雙方的模型存在一些值得探索的差異,因此 plex 提議進行通話。一些評論者渴望閱讀對話紀錄,而 plex 認為,為了讓任何人類、其他有情眾生、當前的 AI 或現有的結構在不久的將來不被摧毀,我們需要麼協調一致地從衝向超智能的競賽中轉向,要麼解決一些非常棘手的技術問題。Audrey 和 plex 都認為,理解這裡提出的一些核心動態對於在上述任何一方面取得成效都是必要的。)

Plex:

首先,在我列出我感興趣的話題之前,我想說我對你所做的事情印象非常深刻。我很少見到有人既能深刻理解機制設計,又知道如何撥動世界的槓桿——並且明白,如果人們不知道如何把事情做得更好,對著他們大喊大叫是沒什麼效果的。更好的做法是給他們:「好,這裡有一些你可以做的事情,你只需要點擊『同意』按鈕,」而不是要求他們在一個實際上需要專業知識才能正確導航的複雜領域中摸索。

Audrey Tang:

是的,的確如此。我也理解你的擔憂,即過於詳細地描述某些未來的模擬,實際上可能會無意中使它們成真——這是一種「超迷信」(hyperstition)。所以我完全同意這份紀錄作為一份共同策劃的作品。我們會共同編輯這份紀錄,只有在我們雙方都滿意時才發布。

Plex:

好的,這聽起來很棒。太好了。我有兩條正在追蹤的思路。一是在 AI 安全生態系統中,我能想像你的技能特別有用的地方。另一條是深入探討關於趨同結果論(convergent consequentialism)模型的技術細節,以及那些讓多極世界顯得相對不穩定的因素。好奇你是否還有其他正在關注、且特別值得探討的高價值話題?

Audrey Tang:

嗯,是的。我剛從京都回到台灣。在那裡,我會見了 Emmett Shear 和 Dave Bloomin,他們正在做所謂的「有機對齊」(organic alignment)——試圖讓多代理系統進入合作主義(cooperativism),而不僅僅是糾結於結果論。

在 ALife 會議上,Blaise Agüera y Arcas 提出了一種新的共生起源統一理論(unified theory of symbiogenesis),它在外部看起來像是單極(singleton-ish),但在內部看起來卻是多極(multipolar-ish)。很多事情似乎正在趨同。在京都,他們有一個新的人工生命研究所正在探索這些技術細節。我們還討論了一個名為 Metta 的模擬器,它可以接入標準的 Gymnasium API。我很樂意談談技術部分。

Plex:

酷。我對 Emmett 的工作只有一個非常粗略的輪廓,沒有詳細的了解。在高層次上,我不明白這怎麼行得通,但我不知道他具體在嘗試什麼,所以也許有什麼我沒想到的竅門讓這變得可行。

Audrey Tang:

我認為這裡的核心關鍵在於,一種更複雜的合作形式——共生起源(symbiogenesis)——是否真的能在長期內比單純的共生(symbiosis)更穩定,因為單純的共生隨著時間推移會導致單極接管。因為正如你所說,極大化代理(maximizing agent)預設會擊敗滿意化代理(satisficing agents)。

Plex:

是的。我可以指出幾個動態。

一個是將代理(agency)建模為獲取未來的邏輯形狀並向偏好狀態分支的過程。更強大的代理會看得更遠,並能更有效地引導。但這是遞歸的,因為它可以引導向它能更有效引導的狀態。

如果你有一個由能力較強和較弱的代理組成的混合系統,你將傾向於能力較強的代理強烈主導。如果你有一個包含人類水平代理和極大超越人類水平代理的生態系統,如果沒有保護人類的強大原則,我認為人類在相對較短的時間內就會被碾碎。我們根本沒有足夠的代理能力去引導向我們能繼續擁有代理能力的狀態。

Audrey Tang:

我了解這條論線,我認為它在很大程度上是正交的。當我們談論共生起源的部分時,這假設了內共生(endosymbiosis)的想法,即較大的代理將較小的代理納入自身的一部分。從線粒體的角度來看,它們在某種意義上仍然擁有代理權,但歸根結底,它們被視為由外部細胞所代表。

Plex:

我最好的猜測是,如果你擁有類似這樣的東西,最終人類基本上會變得無關緊要。在競爭動態中,那些在決策程序中捨棄或減少人類輸入的大型代理最終會獲勝,因為人類在更廣泛的博弈中只是一個不必要的附屬物。

我不認為你會得到一個現代人會接受的結果。他們會說:「哇,這太恐怖了。」即使人類沒有字面上全部死光,他們最終也會變得像大型代理所認為的方便程度那樣無關緊要——這可能幾乎是完全無關緊要。

Audrey Tang:

讓我用伊恩·班克斯(Iain M. Banks)《文明》(Culture)系列中由「心智」(Mind)運行的船艦為例來回應。你基本上是說,即使小說中的心智被描繪成將人類視為好奇、有趣或像寵物一樣的共生對象,因此它們可能真心偏好與人類保持持續的關係,但你的預測是,今天的人類不會偏好那樣的未來?

Plex:

不完全是。我將《文明》建模為一種單極(singleton)——不是單一的監督心智,而是指每個獨立的心智都有類似價值握手或合併價值的東西。如果一個心智開始做一些令人反感的事,其他心智會聯合起來阻止它。整個集體有一個統一的意志,致力於對有情生命友善。我認為《文明》系列是一個相當成功的烏托邦。

我的觀點更接近於:如果你有一個系統,其頂層代理沒有穩定的、照顧人類的價值系統,那麼競爭動態就會接管。如果心智都只為自己打算並玩權力尋求遊戲,那麼在許多時間步長之後,花費較少資源照顧人類的心智將會勝過那些花費資源照顧人類的心智。如果你制定一條規則,比如「你的船上必須有 100,000 個有意識的人類」,你最終會得到這個規則最廉價的版本,這樣它就不會在權力遊戲中讓你花費太多。

Audrey Tang:

所以這就像是,要成為一個好公民,你必須有一個花園。但如果我想鑽漏洞,我就只做一個最低限度可行的花園,也許是用塑膠做的。基本上就是 Eliezer Yudkowsky 所主張的——只要把類人生物關在籠子裡,並希望其他心智分辨不出差別?

Plex:

並不是說它們分辨不出差別。而是頂層沒有一個統一的系統來懲罰背叛者。我的主張是,如果頂層沒有一個強健的系統,雜草就會一步步生長。

這是可以避免的,但前提是頂層必須圍繞著成文的防禦結晶化,例如:「我們作為一個群體共同決定,我們希望保護這些價值。」否則,那些不共享這些價值但仍想獲勝的系統,會在可能很長的一段時間內一步步獲勝。

Audrey Tang:

這點我同意。基本上,即使關心公民關係健康的社群想出了一個穩定的治理系統,如果一個「鐵甲艦」闖入且無法懲罰它,那麼無論是誰保留了資源且沒有將其用於照料花園,最終都會贏得工業化並接管世界。

Plex:

是的,這就是核心動態。

Audrey Tang:

好。所以這對我來說聽起來,我們需要將社群建模為一等公民。我們從現有的、具備技術能力的人類社群及其窄 AI 系統開始——我們本質上已經是部分賽博格(cyborgs)了——並對其進行引導(bootstrap)。

這就是 d/acc 的想法:讓防禦主導的社群保持在技術先進的軌道上,直到他們能夠完成類似《文明》式的引導。看來我們在獲勝條件上大致達成共識,但在回溯推演(backcasting)中存在重要的漏洞。

Plex:

是的。我們都想要一個穩定的頂層系統,既能阻止極其糟糕的事情發生,又能為其中的繁榮代理留出空間。但問題是如何到達那裡。

我目前的看法是,在某個時間點,某些系統會在相對較短的時間內遠遠超越人類水平。如果我們對如何讓遞歸自我改進的每一步保持穩定——即「鋪磚問題」(tiling problem)——沒有清晰的理解,我們就有失敗的風險。例如,當你使用 Claude 7 來構建 Claude 8 時,你可能會不小心移除了一些讓 Claude 7 友善的特質。

如果沒有一個強健且通用的理論來指導如何無限地沿著這條曲線上升,你可能會錯過某一步。這可能是微妙的;也許你的某個系統現在在後台尋求權力。幾步之後,你最終會得到能力顯著增強、但並未真正強健地深刻關懷人類價值的系統。它們只是擁有一種模糊的對齊。

Audrey Tang:

當你說「強健」(robust)時,你是指博弈論意義上的「防策略性」(strategy-proof)嗎——即無論你做什麼,都無法移出這個均衡?

Plex:

我可以澄清一下。這裡的強健是指:如果它與一個有其他 AI 試圖操縱它的環境互動,它仍會指向好的事物(除非那些 AI 的能力顯著更強)。你不能使用該系統來構建一個未對齊的系統。在合理的環境下,該系統不會掉出「做善事」的吸引盆(basin)。我認為系統可以嘗試讓自己更強健,並防禦自己不脫離這個吸引盆。

Audrey Tang:

好的。這聽起來與我心目中的防策略性非常相似。基本上,產生「急轉彎」(sharp-left-turn)的動態不僅需要是小機率的,而且在信息論上必須是不可能的。我們為引導的每一步制定的規則需要免疫操縱,即使是來自其他對齊玩家的聯盟。

Plex:

是的。這是一種解釋。另一個角度:在足夠強大的認知水平上,人類試圖引導方向變得不可行。它不會按照我們的意圖代表我們的價值,因為如果 AI 混入了自己的任何偏好,它可以給我們輸入,導致我們提出符合其偏好的請求。

Audrey Tang:

這可以說已經在發生了。這就是我所說的寄生式推薦系統。

Plex:

是的。當系統具有代理超智能時,情況只會變得更糟。

Audrey Tang:

這就是為什麼我認為我們都同意,如果我們連當前的推薦系統都無法對齊,我們就不應該嘗試邁向下一階梯。

Plex:

是的。我們對這個技術問題準備不足。我們取得了真正的進展,但這只是我們所需進展的一小部分。

Audrey Tang:

聽起來我們在這部分也達成了一致。

我的主要觀點是,我們確實擁有對齊當前系統的工具,我們應該鍛煉我們的公民肌肉,這樣我們至少對這些算法有足夠好的控制。只有到那時,我們才應該轉向改進我們的協調機制,使用已經對齊的系統,但僅限於加強人類協調的方式。

然後,我們利用那些更協調的社群來創造我所說的「Kamis」(地方守護神),它們是只關心其特定社群的防策略性實例化。這是一個階梯,你在邁向下一階段之前,先建立一個堅固、具體的基礎。

Plex:

我喜歡除了最後一步之外的所有步驟。我擔心這種有邊界的 Kami 在高功率水平下會遇到未解決、甚至可能無法解決的技術問題。如果你有一個具有一定程度自我修訂能力的、相當強大的認知系統,我認為它會趨向於更清晰的思維和更大的影響力。對於一個中等強大的系統來說,將自己發展成一個高度強大的系統是趨同的。有界性是一個不穩定的屬性。我擔心我們到了這一步,要麼發現它真的很難解決,要麼有人沒注意到,直接推進,然後那個群體就吞噬了世界。

Audrey Tang:

如果我們讓「可引導、有邊界的系統能提供更好的經濟回報」成為常識,我就不太擔心「直接推進」的部分。這樣一來,構建無邊界系統就會變得不負責任——就像製造破壞臭氧層的氟利昂一樣——並且不會獲得現在這樣的投資。

Plex:

不幸的是,我認為那是錯誤的。我認為無邊界系統會產生大得多的經濟回報。一家公司的 AI 系統越無邊界,他們獲得的利潤就越多。在某個時間點,系統變得如此強大以至於殺死了所有人類,但在某種意義上,它仍然擁有更多利潤。我認為文明正在奔向的資本和影響力分配系統,會趨向於無邊界優化器。

Audrey Tang:

但如果真是那樣,為什麼人們停止製造氟利昂了?

Plex:

第一,他們有相當好的替代品;這並沒有讓他們花費太多。第二,有足夠的壓力。限制那些在局部具有輕微經濟生產力的事物是可能的,但我們還沒有任何技術在經濟和戰略重要性上能與這項技術相比卻被抑制住的例子。

Audrey Tang:

讓我們把這兩部分分開來看。對於氟利昂,人們並不是手頭就有完美的、現成的替代品。蒙特婁議定書是一項強制技術發展的法規:它創造了一個堅定的期限,迫使公司投入巨資將已知但尚未開發成熟的替代品商業化並規模化。全球對逐步淘汰的承諾出現在解決方案在經濟上大規模可行之前,而不是之後。

我們處於類似的情況。當今大多數提供經濟價值的 AI 系統都需要某種可引導性和有界性。大多數製造商至少會同意在管理外部性方面做表面功夫,因為巨大的負外部性會破壞資本主義工具的總體方向。

Plex:

我同意許多人會做表面功夫,但我認為這不足以阻止任何人構建無邊界系統,當該系統能有效地勝過有邊界系統時。

在某種程度上,人們更願意保持控制,但也有很多人會說:「請為我創造一家價值十億美元的公司。你自己看著辦。」自然的梯度會傾向於人類將越來越多的認知和決策轉移到日益廣泛的代理系統中,而這些系統正在執行的任務與無邊界性高度糾纏。存在著不保持有界性的強大動機。

Audrey Tang:

好,那麼這就轉到了第二部分:是否不可能阻止流氓行為者。我想我們在「需要多少主要玩家遵守規則才能防範純粹的無邊界玩家」這一點上有分歧。

在一個我們搞清楚防禦主導地位的 d/acc 世界中,這變得幾乎可以輕易解決。在我們所處的現實中,我們需要一個雙層協議:圍繞防禦主導的艙室(pods)建立規範,然後轉移規範,使進攻主導的部分仍受較大玩家的約束。你似乎認為只要一個大玩家背叛,博弈就基本上輸了?

Plex:

是的,而且我還可以提出一個更強大的論點。這不僅僅是背叛與合作的問題,而是一個光譜。你沿著光譜向無邊界優化強系統移動得越遠,你就越有可能贏得主導地位。檢測某人在該光譜上走了多遠,比隱藏它要昂貴得多。

資本資源和影響力越來越多地分配給那些比競爭對手進行更多競爭的子系統。那些子系統最終將主導敘事。我覺得在 Sam Altman 的一些舉動中看到了這一點。這感覺像是某個想要確保自己對敘事擁有影響力的人所做的先發制人的舉動。這就是我預期會獲勝的那種東西。如果你不是處於極高脈絡(high context)中,你就看不出他們在背叛。

Audrey Tang:

我想起了 Shahar Avin 的 BAK 遊戲,在那個遊戲中,你無法從前幾手棋中真正判斷某人是否試圖背叛,因為他們的走法可以有兩種解釋。

Plex:

聽起來是類似的動態。

Audrey Tang:

我試著推演一下。例如,你認為各大實驗室的負責人到底在做什麼?

Plex:

這並不是一個要達到普遍認為糟糕的終態的陰謀。我認為他們通常能夠認為這是為了更大的利益,或者是代價最小的選擇。

我認為一個更清晰的觀察方向是,將其視為在整個系統中分形地做出的決策,即將越來越多的決策權和影響力轉移給 AI 系統。因為那是目前最容易、局部最方便、且能讓他們贏得更多的做法。這不是一個讓人類滅絕的大陰謀;這只是當每個人都走自然的「水往低處流」路線時會發生的事,越來越多地將他們一直在進行的那種無邊界認知移交給 AI 系統。

Audrey Tang:

所以你的意思是,這種逐漸的權力剝奪(disempowerment)可能是如此緩慢,以至於每一步看起來都沒有違反有界性,但經過很長時間,它累積成了權力剝奪?

Plex:

是的。儘管我認為雖然在某種意義上它是逐漸的,但它也可以相對較快。它可能是許多快速連續且加速的步驟——一場逐底競爭,可能短至低個位數的年份。即使沒有任何行為者通過構建一個強勢主導的系統來觸發「非逐漸」的崩潰,我認為你仍然會輸給逐漸的權力剝奪。即使那沒有被觸發,你最終還是會看到人類被碾碎。

Audrey Tang:

這假設了如果當今的系統已經獎勵對人類不利的結果,那麼 AI 系統可能會在局部更有效地遵循這些激勵。人類為了短期利益,將重要的判斷委託給 AI。而當數百萬人都這麼做,即使程度很輕,累積起來的結果也會對人類不利?

Plex:

是的,這涵蓋了其中的一部分。

Audrey Tang:

那麼聽起來顯而易見的出路就是沿途展示非常清晰的人類偏好,這樣一來就無法避免看到分歧。你可以擁有超局部和區域性的儀表板;你可以測量,例如,每分鐘的極化程度。與其讓每個 AI-人類對「察言觀色」(reading the air),你可以「書寫空氣」(write the air),這樣他們就無法從差值中獲利。

Plex:

我認為這能讓情況維持得久一點。取決於那些儀表板有多好,以及它們對古德哈特定律(Goodhart's Law)有多脆弱,你或許能在事情變得非常糟糕之前,顯著地延長你在能力曲線上的攀升距離,但由於指數增長,這可能買不到太多時鐘時間。這可能仍足以做一些其他事情,使系統長期穩定地向好。

我認為真正強健的版本最終看起來不像是堆砌手工製作的指標,而更像是:「我們解決了道德哲學,從中可以明顯看出所有指標應該是什麼。」這是一個相當困難的問題。否則,如果你只是使用半隨機的指標,在權力水平上升的某個地方,AI 就能夠很好地對特定指標進行古德哈特式操縱,人類可能會以某種他們甚至不知道會發生的方式被碾碎,而所有指標看起來仍然非常好。你讀過 Paul Christiano 的「失敗是什麼樣子的」嗎?

Audrey Tang:

是的,我讀過。

Plex:

就是那種味道——指標看起來很好,但實際上是波坦金村莊(Potemkin village)。

Audrey Tang:

我想強調你說的一句話:「解決道德哲學相當困難。」我認為這只有在非超局部(non-hyperlocal)的範圍內才困難。我認為在超局部範圍內解決道德哲學是相當容易的。這是準功利主義(quasi-utilitarianism)和關懷倫理的核心主張。如果你只有一個超局部的道德範圍,與普遍情況相比,它在計算上是微不足道的。

Plex:

好,這對我來說是合理的。我主要的擔憂是,如果你解決了所有的超局部道德哲學,系統整體並不一定會趨向於大多數參與者在開始時認為好的結果。你最終可能會發現超局部系統的某些部分沒有注意到某些會導致系統癌症的東西——這種破壞在每個局部步驟放大看都是好的,但如果你縮小看,系統正陷入非常糟糕的境地。

Audrey Tang:

是的。這需要推理——不是在功利主義意義上,而是在純粹的超局部意義上——也要向下一組織層級擴展。這只是標準的艾琳諾·歐斯壯式輔助性原則(Elinor Ostrom-style subsidiarity)。

這裡的直覺是,我們是由「分體」(dividuals)——碎片或其他什麼組成的——它們是多個不同超局部性的樣本。如果我們通過協商實現某種內部連貫性,那麼它就會在每個自下而上的層級中顯現。超局部道德在稍高一點的層級得到解決,但絕不會在最高層級解決。這就是你如何從更去中心化的系統中獲得更穩定的系統;這是 d/acc 核心道德假設之一。

Plex:

這並非不可能奏效。我不確定系統最終是否會衰退到奇怪的狀態,因為我不明白規模化如何防禦某些失敗。我對這方面的技術哲學參考資料感興趣。

Audrey Tang:

我認為與功利主義最接近的是 Iain King 的「62 點」。他從嚴格的功利主義術語開始,最終論證了某種我稱之為「公民關懷」(civic care)的東西。

Plex:

酷。謝謝。在讀完更多內容之前,我們先延後深入探討。我們也縮小一下範圍。哪些對話內容感覺價值最高?

Audrey Tang:

我只是很高興能校準我們的措辭。許多書面文字可以有多種解釋。簡直就像晚期維根斯坦式的「蒼蠅飛出瓶子」。

所以如果在我的寫作中,包括 civic care、6pack.care——順便說一下,Nicky Case 為網站貢獻了一張非常漂亮的插圖。如果有什麼你覺得含糊不清,或者在低功率水平下發出積極美德信號、但在高功率水平下卻不合理的地方,請告訴我。

Plex:

好的。我的核心問題是:在一個包含人類水平和強大超人類水平系統的有機系統中,是什麼阻止了人類隨著時間推移失去影響力,以至於失去維持自身的能力?預設情況下,我認為這行不通。讓這變得可行的核心洞察是什麼?

Audrey Tang:

好的。首先,我記得你用過的一個詞:「喝采燈」(applause lights)。在我的回答中,我會努力將喝采燈降到零。

一個核心洞察是,我們(We, the People)已經是我們正在尋找的超智能。我將潛在的人類社群想像成超智能。超人類水平的力量所需的不是我們道德範圍之外的東西,而是我們總能以超局部方式推理的東西。

這不會表現為束縛於單一律師委託人的奴隸,那行不通;而是表現為一個團隊教練或促進者,致力於對人類行為者之間的關係履行信託責任。核心洞察是,忠誠不是對單一人類偏好或任何聚合,而是對人類連接並形成超智能的潛力。這是我閱讀連貫混合意志(Coherent Blended Volition, CBV)時得到的啟發,儘管我正在對其進行擴展。

Plex:

嗯。為什麼這還沒能讓我完全理解?

Audrey Tang:

你熟悉 Ben Goertzel 在 2012 年的想法嗎?主要想法是,與其推斷人類意志(這允許的誤差範圍極小,而且本身就非常困難),我們專注於人類隨著時間推移混合其意志的能力。

Plex:

如果我們想像觀察這件事完成兩百年後的世界,並將其描述給今天活著的人聽,你認為那個人會感到極度恐懼嗎?

Audrey Tang:

嗯,這與我們向兩百年前的人類解釋今天的情況有什麼不同嗎?

Plex:

不,我認為這要糟糕得多。兩百年前的人會感到困惑。但如果你只是以一種不能強健地保留和保護個人代理權和人類價值的方式來混合意志,我認為它會沿著自然梯度陷入某種更異類的東西。

Audrey Tang:

我認為 CBV 所說的「混合」不是平均。每個人都有一套不可公度、不可還原的偏好。與其推斷(這只會發散),我們需要找出一個我們可以「各適其適」(live and let live)的方法,並使這種協議變得連貫,讓每個人在超局部意義上都認為這是顯而易見的道路。隨著時間推移增加這種能力會產生超智能,但其所有組成部分都是與人類兼容的。

Plex:

我同意這個願景聽起來非常好。我仍然有一種直覺,如果我的理解沒錯,你最終得到的結果完全不是那樣。也許我漏掉的是,你所指的不是防禦人性價值的最終事物,相反,這是一個引導過程,用來弄清楚這一切、進行意義建構,並達到我們可以做到那一幕的程度?

Audrey Tang:

如果到那時,我們發現爬上另一個階梯在技術上是不可能的,那麼一個強大的、水平對齊的群體智能會在那裡停下來,而不是選擇自殺。這是好的結局之一。

Plex:

是的。我們意識到我們還沒準備好邁出下一步,或者這在物理上是不可能的,因此我們不去做。這看起來相當健康,雖然也非常雄心勃勃。達到一個我們如此協調的系統,以至於我們既能注意到我們無法安全地邁出下一步,然後實際上不去邁出那一步——我同意這是一個獲勝條件。或者,至少它比我們現在的處境要好得多。

Audrey Tang:

我認為這需要一場行銷活動。我喜歡這句話:「如果有人建造它,每個人都會死。」我推銷它的一種方式是讓它在沿途支付紅利。否則,這聽起來就像是在 911 事件之前提議加固駕駛艙門。如果你強健地去做,它會非常昂貴,而且成功就是「什麼都沒發生」,這不是一個持久的政策提案。這種可引導的、水平混合意志計劃實現了同樣的目標——我們可以同意停止——但它的行銷點是解決極化和許多其他沿途的挑戰。

Plex:

是的,這看起來相當健康。有幾件事,生態系統的需求感覺與你開發的技能組很接近。

第一是人類對於我們想去哪裡的意義建構(sense-making)。我們將擁有能夠做真正深刻事情的技術——解決醫療、衰老、氣候變化等。我們作為一個物種還沒有搞清楚我們想用這些可能性做什麼。你開發的那種機制設計對於這一點可能極其強大:讓人們理解什麼是可能的,然後搞清楚我們想用所有這些可能性做什麼。

Audrey Tang:

就像對光錐進行參與式設計。

Plex:

是的。除了顯而易見的效果外,它還有一個很好的好處,就是能激發動力。很多早期進入 AI 安全領域的人之所以有動力,是因為他們讀了連貫推斷意志(Coherent Extrapolated Volition, CEV),並意識到這不僅僅是末日與陰霾;我們可以建立一個真正令人難以置信的未來。擁有那個過程、進行意義建構並協作找出北極星,似乎具有潛在的強大力量。

Audrey Tang:

我同意。假設 CEV 是可以實現的,這也可以作為邁向 CEV 的一個很好的引導階段。

Plex:

手動為我們自己做一點 CEV。我資助了一個朋友製作一系列名為「烏托邦誌」(Utopiography)的訪談,採訪人們希望未來是什麼樣子的。但某種更具擴展性的東西似乎好得多。

Audrey Tang:

當然。透過 Weval.org全球對話挑戰,我們擁有了類似集群意志(clustered volition)的東西,所以如果你進行推斷,你是從集群層級開始,而不是從個人層級開始。這與我們剛才談到的超局部道德範圍相契合。它們看起來非常有協同效應。

Plex:

完全同意。第二點是,對齊領域本身在對技術問題是什麼或如何解決它的意義建構方面,表現得驚人地糟糕。如果你把三個對齊研究員放進一個房間,你會得到超過三種意見,而且不僅僅是意見不同,連本體論和定義都不同。

達到讓那些試圖解決大規模問題(而不僅僅是沒有廣泛戰略觀點的局部謎題)的人能夠可靠地使用同一種語言的程度,我們還差得遠。這導致了精力的浪費、挫折感和內鬥。我們作為一個社群的表現遠低於我們需要的水平。我認為你一直在研究的東西對於解決其中的一些問題可能極其強大。

Audrey Tang:

的確,將「氣候正義」翻譯為「受造界關懷」並翻譯回來的同一種技術,可以用於在不同的對齊詞彙之間進行翻譯。

Plex:

是的。而且可能還需要額外的機制設計,因為有些東西會深入到非常技術性的細節中。我們需要一種方法讓人們跨越本體論鴻溝和強烈分歧進行交流——在這種情況下,一個人相信如果我們做「A」,世界就會毀滅,而另一個相信如果我們做「A」,世界就會毀滅。此外,他們說著不同的語言,而分歧深埋在涉及抽象哲學或數學的關鍵點中,而地球上只有十個人能理解。

Audrey Tang:

也許他們都是對的,無論如何世界都會毀滅,但是的。

Plex:

是的。我想像在一個無法獲得清晰獎勵信號的領域,需要一些額外的機制設計來實現技術連貫性,因為你無法在不測試該事物的情況下檢查你的計劃是否奏效,而如果你測試它,哎呀,如果你弄錯了。

Audrey Tang:

我認為 Metta AI 模擬器的希望在於,至少圍繞群體動態和接管場景的部分——他們甚至有一個名為「迴紋針對齒輪」(Clips versus Cogs)的場景,其中迴紋針試圖將一切變成迴紋針,而齒輪試圖防禦——至少可以將其中的一些技術爭論放入測試中,看看它們是否真的會毀滅世界,而不會毀滅我們所在的外部世界。它只能毀滅模擬世界。

Plex:

你肯定可以運行小型實驗,但在玩具系統和具有極強能力、具備情境意識且知道自己可以擊敗你的系統之間,將會存在重要的分佈偏移(distributional shifts)。你想要一個你有理由預期能擴展到現實世界的強健理論,而不是僅僅依賴實驗,儘管實驗可以給你提供有用的數據點。

Audrey Tang:

而且還能給我們共同的詞彙。這讓人想起理論物理學,一個好的實驗可以統一許多不同的理論分支,因為他們突然意識到他們在談論的是同一件事。

Plex:

那是夢想。

Audrey Tang:

太棒了。嗯,我想我們處於幸運的時間線——我們只花了一個小時,但成功地在我們談論的所有事情上達成了一致。所以顯然,研究員之間的對齊是可能的。

Plex:

如果兩個人都在運行一個能夠接收和翻譯的過程,那是可能的。如果可能的話,讓這種能力擴展到許多其他人身上似乎非常好。

Audrey Tang:

是的。讓我們實現它。

Plex:

太好了。很高興繼續合作。如果有任何你覺得有用的東西,請告訴我。在這個領域工作了十年,我有相當強的人脈網絡。

Audrey Tang:

當然。如你所知,我是這個領域技術部分的新手,儘管我在政策部分待了很長時間。我會花更多時間訪問技術社群。我確實是從牛津的 FHI(人類未來研究所)的人開始的,所以如果有其他高價值的社群,請告訴我。

Plex:

酷。我最推薦的可能是與 MIRI(機器智能研究所)交談。MIRI 在相對較少人研究的事物上具有很強的技術清晰度。他們在某些部分的溝通上也不是特別擅長;讓他們學習你的一些趨同和溝通技巧會很好。

還有英國黑池(Blackpool)的 EA 旅館。如果你去英國,順便去看看。此外,那裡的員工是你的超級粉絲,肯定會為你推薦的人提供免費食物和住宿,讓他們留在其他思考 AI 安全的人身邊,或者舉辦靜修會或黑客松。

Audrey Tang:

太棒了。黑池北站。聽起來從牛津過去非常方便。

Plex:

此外,LessWrong 社群週末通常在每年九月左右舉行,那裡聚集了高度密集的有趣人士。

Audrey Tang:

是的。我剛去過 Lighthaven 的 The Curve。那裡非常棒。

Plex:

是的。很多 Lighthaven 的活動也很棒。很高興能與你交談,是的,很高興有你加入拯救世界的團隊。

Audrey Tang:

當然。繼續努力!生生不息,繁榮昌盛。 🖖


Plex 的討論後評論:

我得出的認識論立場是,我仍然預期在出現強大的代理 AI 系統之前,你需要進行基於理論的對齊,這種理論可以任意擴展且在某種意義上是統一的,以便在涉及高功率 AI 的情況下獲得穩定的文明式良好狀態。然而,我認為你正在進行的工作——改進全球範圍內以及對齊社群內部的意義建構和協調——可能會讓人類更有可能弄清楚這一點(或找到繞過我擔憂的方法),因此我認可這是目前為止我見過的人們採取的最新穎、最有用的方法之一。

在對話之前,我並不知道 Audrey 正在研究的一些技術提案,所以我們無法完全深入到技術細節中,但我會進一步閱讀她的讀物,如果我們未來有對話,也許可以觸及一些額外的關鍵點。

特別是,我想拆解一下我的直覺,即 CBV 最終是否真的會導致今天的人們不會認可的異類未來,一旦我搞清楚了他們具體在建議什麼。我也很有興趣嘗試理解為什麼 Audrey 對於找到超局部道德問題的解決方案感到樂觀,這些解決方案可以遞歸地穿過不同的規模,並且從最小單位的角度來看仍然進展順利。

Lesswrong

相關文章

  1. ARC 進度更新:與抽樣方法競爭

    5 個月前

  2. 標記化的黑暗藝術,或:我如何學會開始憂慮並擁抱大型語言模型的未解碼輸出

    6 個月前

  3. 邁向受選擇壓力下的介面統計力學

    6 個月前

  4. 重採樣在 Jensen-Shannon 散度下近似地保留了冗餘與中介性

    6 個月前

  5. 疊加態中的旋轉

    5 個月前