人工智慧倫理的難題

Benedict Evans·大約 2 年前

你能為一種將以完全不同的方式、出於不同的目的、在不同的行業中使用的技術編寫法律或制定倫理原則嗎？如果它每18個月就完全改變一次，那又意味著什麼？

1990 年代後期，英國郵政局（UK Post Office）部署了一套由富士通（Fujitsu）為其開發的新型銷售點終端電腦系統。幾乎在系統上線後，身為自僱人士且通常是小型獨立零售商的郵政局長們，便開始報告系統顯示現金短缺；郵政局對此的反應是發起盜竊起訴。在接下來的 15 年裡，有接近一千人被定罪，更多人遭到誣告並被迫達成和解，且至少發生了四起自殺事件。

該系統充滿了可能導致虛假短缺出現的漏洞（bugs），富士通和郵政局內部的某些人知道這一點，但富士通和郵政局的員工仍出庭作證，聲稱系統運行正常，而盜竊是唯一的解釋。現在，這理所當然地演變成了一場巨大的醜聞。

每當我聽到人工智慧倫理（AI Ethics）以及人們談論監管 AI 時，我就會想到這個案例。富士通當時並非在構建機器學習或大型語言模型（LLM）——那是 1970 年代的技術。但我們不會看著這場醜聞說我們需要「資料庫倫理」，或者解決方案是設立一個「SQL 監管機構」。這是富士通內部和郵政局內部的制度性失敗，也是法院系統未能妥善檢驗證據的失敗。而且，明確地說，失敗之處不在於存在漏洞，而是在於拒絕承認漏洞。無論如何，借用人們現在用來擔憂 AI 的語言：一台運行著難以診斷或理解的不確定軟體的電腦，做出了毀掉人們生活的「決定」——它「決定」了錢不見了。而郵政局的員工就這樣順從了那些決定。

我們無法透過 SQL 監管機構來解決這個問題，同樣的觀點也適用於當我們讀到 FTX 擁有一份包含八種不同資產負債表的試算表時。我們不會要求設立試算表監管機構，並要求微軟阻止此類事件再次發生。那將是錯誤的抽象層級。

我認為，這就是討論「AI 倫理」或制定法律來監管「AI」的挑戰所在。

壞人利用軟體做壞事的方式有很多種，人們搞砸軟體的方式也有很多種——我們擔心如果技術奏效會發生什麼，也擔心如果技術失效會發生什麼。在過去十年中，機器學習創造了一系列搞砸事情或作惡的新方式，而生成式機器學習也將步其後塵。

然而，這些問題會以非常不同的形式出現在非常不同的地方。人們將 AI 用於從假釋處理到核發抵押貸款，從批改中學測試到在購物中心識別竊賊（或嘗試識別），再到優化風力發電機葉片和規劃自行車道。其中一些涉及倫理問題或偏見問題（有些偏見問題甚至是關於人的偏見）。有些則有出錯並致人於死的空間。但它們都是「不同」的問題，有著不同的疑問、後果和不同領域的專業知識。

過去幾週關於 Google Gemini 的紛擾就是一個很好的案例研究。我想大多數人都同意，如果你向搜尋引擎詢問自殺的最佳方法，它不應該只告訴你絞索和安眠藥之間的權衡；我們也理解 Instagram 和 Pinterest 可能不應該向 14 歲女孩推廣自殘內容，即使那似乎是她們感興趣的內容。但我們已經花了十年或更長時間爭論內容審查的真正含義以及該劃定什麼樣的界線，現在我們需要將這些論點應用於生成式搜尋或生成式圖像，而這並不會變得更容易。許多聰明人會樂於在未來幾年爭論這個問題——但與此同時，這與用於多發性硬化症藥物研發的生成式 AI 訓練數據和測試協議毫無關係。這些是不同的問題，很難看出有一個倫理領域能涵蓋所有這些問題。正如 Larry Tesler 所說，AI 就是那些尚未實現的功能：一旦它實現了，它就只是軟體，而現在「一切」都是軟體。

我經常將科技監管與汽車監管進行比較。汽車會引發各種問題，我們有許多規則和政策，而我們目前針對消費性科技的監管浪潮有時看起來非常相似。但我們並沒有一個政府部門和一部綜合性法律，來涵蓋通用汽車如何對待其經銷商、碰撞與安全標準、大城市的擁堵費、稅法是否鼓勵低密度開發、如何處理青少年酒駕超速，以及國家石油供應的安全。這些都是重大問題，生成式 AI 也引發了各種可能的挑戰，但它們都是不同的事物，最好由非常不同的人來理解。

科技與汽車之間的一大區別在於，我們花了 75 年才在汽車上安裝安全帶，而我們並沒有等待 75 年才去監管科技；然而，我們都是伴隨著汽車長大的並了解它們，而我們往往無法直觀地理解某些科技問題的癥結所在。生成式 AI 為此又增添了一層複雜性：Instagram 或 TikTok 可能還很新，但它們現在看起來與去年差不多，而科技界沒有人真正知道生成式 AI 在今年年底會是什麼樣子。關於這項技術如何運作以及將如何發展，各種極其基本的問題都還懸而未決。延伸我的比喻，我們是在 1910 年撰寫關於飛機和汽車的法律與論文。這需要一些謙遜，以及一種預期：你現在所說的大部分內容，到明年此時可能都已變得無關緊要。

— Benedict Evans

你的個人知識庫

人工智慧倫理的難題