一個高誠信/優良認知學的政治機器？

Lesswrong·4 個月前

我正在探索如何建立一個具備高誠信與良好認識論的政治機器，以在不向傳統政治的智識妥協或「互惠聲望聯盟」低頭的前提下，實現如人工智慧安全等重要目標。

我有幾個目標，若能擁有強大的政治集團（political bloc）支持，將會更容易達成。這裡可能有許多人也持有相同的目標。（目標包括「確保不會開發出強大且危險的 AI」、「確保美國及世界的治理大致良好且不趨於腐朽」、「擁有能與上述治理體系接軌的良好公民論述」。）

我認為，如果能有一個具備強大實力、高度誠信且擁有良好認識論（epistemics）的政治集團來推動這些事情，那會是一件好事。

不幸的是，採取天真的做法會摧毀理性主義知識界（rationalist intellectual scene）中美好的部分。這篇文章提出了一些關於如何建立一個具備良好認識論與誠信的政治集團的想法。

最近，我捐款給了 Alex Bores 的競選活動。結果證明，這募集到了一筆相當可觀且令人驚訝的資金。

我捐給 Alex Bores 時相當有信心。幾年前，我也曾捐款給 Carrick Flynn，但當時感覺有點「怪怪的」（skeezy）。這不一定是因為 Carrick Flynn 本人有什麼問題，而是因為促使我注意到「捐款給 Carrick Flynn」的過程是一種自我指涉的邏輯：「嗯，他是有效利他主義者（EA），所以他當選是好事。」（或許有人掌握比這更多的資訊，但我沒聽說多少）。

最終，我雖然大致同意，但我不會公開為這個選擇辯護。那是在 FTX 時代，資金充裕，我們開始吸引到一些投機分子（例如，我聽過有人直白地說：「噢，老兄，你只要說你關心某某議題，就能拿到免費的錢。」）。持續捐款給那些「因為他們是 EA」或「因為他們口頭說出『AI 安全』」的人，是不可持續的。

唉，但我確實有想要實現的重要政治目標。政治目標需要讓大量的人步調一致地行動。而理性主義者討厭步調一致，這是有充分理由的。當時，我的解決方案是「捐給 Carrick Flynn，但心裡覺得怪怪的」。

一種選擇是將這件事留給「EA 社群」，而不是試圖動用「理性主義者」。唉，我只是……不太信任 EA 社群能在這方面做得很好。或者更確切地說，要讓他們成功，需要他們傾向於理性主義者的特質，而這又會重新引發同樣的排斥感和猶豫不決。我的政治目標是細緻的。我不想走上那種會禁止核能、結果反而讓事情變得更糟的環保主義老路。

AI 安全案例

AI 安全並非唯一需要強大且具備良好認識論的政治集團支持的事項。也許人們更有野心，想做一些更開放性的事情。但是，這是促使我將其列入前五大待辦事項的動力案例，且剖析動力案例是有用的。

我想這裡的許多人都同意，我們需要停止開發不安全、具備壓倒性力量的超人工智慧。（我們對於達成此目標的正確步驟可能存在很大分歧）。

以下是一些失敗的方式：

你創造了一個莫洛克式（molochian）的「道德迷宮」來負責「監管 AI」，它甚至根本沒打算做正確的事，內部充斥著追求私利的官僚，分發著與監管不安全、壓倒性強大的超人工智慧毫無關係的人情。
你創造了一群高度受信任的技術官僚，但不幸的是，他們對於哪種訓練運行、算力控制或其他干預措施真正有效持有錯誤見解，因為這是一個複雜的問題。
你建立了一個在第一天大致正確的系統，但在 20 年後仍需做出「即時」選擇時，該系統已經僵化了。
你從未獲得對這件事的支持，因為你不知道如何妥協和建立聯盟。
你建立的聯盟達成了一些表面相似、但並未解決核心問題的目標。

這很艱難。該怎麼辦（Wat do）？

我認為「該怎麼辦」的答案是：弄清楚如何建立一個強大到足以擁有槓桿作用，但仍建立在穩固的認識論信任基礎上的政治網絡。

該怎麼做？

唉，我也不知道。但對我來說，做得比「不玩這場遊戲」或「天真且短視地玩這場遊戲」更好，感覺是非常可以實現的。以下是一些想法：

事情之所以困難的一些原因

這很困難有很多原因。以下是一些較容易表述的原因：

互利聲譽聯盟 (Mutual Reputation Alliances)

世界上的許多運作依賴於隱性聯盟，人們同意互相推薦對方為好人，並且不說對方的壞話。

憤世嫉俗的理性主義者之所以會說「如果不進行智識上的妥協，政治就極難實行」（而其他人可能會覺得「我明白你的擔憂，但你似乎誇大了」），一個重要原因就是這種現象非常有害。它會以一種如果你不主動追蹤就看不見的方式干擾認識論，而互利聲譽聯盟不希望你追蹤它，因此需要主動努力才能使其變得可追蹤。

參見：Heads I Win, Tails?—Never Heard of Her; Or, Selective Reporting and the Tragedy of the Green Rationalists

人們普遍有獲得權力的動機

獲得權力有其正當（天真）的理由。你確實需要政治權力才能成事。但是，人們也會因為平凡、無聊、自私的原因而受到權力的吸引。在這種情況下，你很容易在動機上欺騙自己，也很容易對未來當你深陷政治聯盟時的動機產生誤判。

許多獲得權力的方式都涉及互利聲譽聯盟或其他妥協。

（Oliver Habryka 曾向我論證，存在一些獲得「有條件權力」（相對於「無條件權力」）的方法，這些方法涉及較少的妥協。這篇文章主要討論獲得無條件權力，但區分這兩者似乎值得標記。）

私人資訊非常關鍵

雖然有一些公開資訊，但對於「這個廣泛的政治計畫能否長期運作」，將取決於諸如「某某人是否守信用？」、「如果政治局勢改變，或者他們看到權力機會，某某人還會繼續守信用嗎？」等問題。

這需要了解其性格的細微細節，而你只能從與他們共事過的人那裡獲得，而這些人通常是互利聲譽聯盟的一部分，不希望自己的名字與你分享的資訊掛鉤，且只有在你分享資訊的方式不會暴露其身份時，才會提供資訊。

有權勢的人可能具有報復心

除了「深陷互利聲譽聯盟」之外，如果你試圖分享關於其性格的負面資訊，有權勢的人可能會採取報復行動。而且，既然他們有權勢，如果他們想傷害你，他們很可能做得到。

人們不分享權勢者的負面資訊是出於恐懼，而不僅僅是忠誠。

（這方面的一個具體案例是「他們可以控告你誹謗，或者至少以此威脅」。）

政治廣義上是對抗性的

會有競爭對手不希望你支持的候選人當選，或不希望你支持的政策實施。他們會主動阻撓你。他們可能會採取難以察覺的卑劣手段，且剛好維持在「不合理」的門檻之下，讓你難以公開指責。

這也意味著有時你會希望秘密地籌款或運作。

謊言與誤導具有傳染性

互利聲譽聯盟代價高昂，因為它們會從聯盟內部向外輻射。在實踐中，政治家和理性主義者之間並沒有明確的界限。集結支持和尋找私人資訊的人（在預設情況下，很可能）會散播某種壓力，要求不要質疑既定敘事，並避免讓分享資訊的人感到後悔。

另見：Entangled Truths, Contagious Lies

政治是心靈殺手 / 困難模式

當我們只是互聯網上討論某些事情的一個小角落時，這已經夠難了。如果你試圖達成政治目標，這將變得更加重要。

參見：Politics is the Mind-Killer 以及 Politics is hard mode

高誠信的政治集團需要長期運作，而非僅此一次

如果你只是進行一次性的政治操作，這些問題大多沒那麼嚴重。你可能會樹立一些敵人，並冒著一點部落群體思維的風險，但隨後你又回到其他事情上，後果是有限的。

但是，建立一個「良好認識論/誠信」政治集團的全部意義在於持續不斷地做事。如果成功，這將招致敵人。它還會吸引……

詐取 (Grift)

人們會試圖操縱你給他們錢。其中一些情況可能是出於好意。無論如何，你都需要具備防禦能力。

密碼的偽造成本應該很高

如果大家都知道有一個「高誠信/認識論政治集團」在防範反社會人格和細微腐敗，人們就會試圖說出那些聽起來像是在避免反社會人格/細微腐敗的話。這包括候選人，以及運行集結活動以獲取資金的人。

「我相信 AI 安全」或「我關心認識論」是很容易偽造的密碼。

一個較難偽造的密碼例子是：「我已經就我的承諾發表了許多公開聲明，如果我背叛了它們，會讓我顯得很難看。」

對於運行政治行動委員會（PAC）或其他組織的人來說，「這是我建立的激勵機制，旨在讓我自己/組織難以背叛其原則」則更好。（例如，OpenAI 的非營利治理結構確實讓該組織背叛其原則變得至少很困難，且耗費了數年時間）。

解決方案示例：政治捐款的私人及/或追溯性監督者

政治籌款的一個常見困難是，早期通常需要以低調的方式進行，因為如果競爭對手知道你的計劃，他們就可以進行阻撓。但是，

我認為過程的一部分應該是，有一些人參與低調私密的政治...

— Lesswrong