未來的萬物皆謊言:安全篇
我認為機器學習系統危及了我們的心理與生理安全。所謂的對齊工作根本行不通,而且將具備破壞能力的大型語言模型連接到網路或處理不受信任的輸入,簡直是一場安全噩夢。
背景
本文探討了大型語言模型(LLM)在安全性與對齊(Alignment)上的根本缺陷,作者 Aphyr 認為現行的對齊技術只是昂貴且選擇性的補丁,無法阻止惡意模型的誕生。隨著硬體門檻降低、演算法公開以及訓練數據的易取得性,所謂的技術護城河正在瓦解,這將導致社會面臨前所未有的安全威脅與資訊污染。
社群觀點
Hacker News 的討論首先聚焦於作者 Aphyr 的個人影響力。許多資深用戶指出,作者過去在分散式系統安全性(如 Call Me Maybe 系列)的嚴謹分析,使其在技術社群中擁有極高的信譽,這也是為何該系列文章能頻繁登上首頁的原因。然而,作者本人也現身說法,觀察到讀者對這類長篇議題的關注度並不平均,雖然引言與文化層面的討論獲得大量關注,但涉及動力學或心理危害等深層章節的點閱率卻顯著較低,反映出技術社群在吸收長篇深度評論時的碎片化傾向。
在技術層面上,留言者對「對齊」的有效性抱持懷疑態度。有觀點認為,目前的對齊過程更像是一場資源耗竭的軍備競賽,僅有利於那些能負擔巨額人類回饋強化學習(RLHF)與紅隊測試成本的大型企業。即便投入海量資源,模型依然會洩漏危險能力或產生不當內容,這顯示出目前的防護機制並非治本之藥。部分討論者提出,真正的安全護城河或許不應建立在事後的修補與過濾,而是應該開發在架構上就具備本質限制的系統,而非試圖去馴服一個無限擴張但不可預測的黑盒。
此外,社群中也出現了對 AI 發展終局的憂慮。有留言者將目前的發展趨勢比喻為人類社會正緩慢地走向某種集體性的崩潰或極端控制。討論中甚至引用了科幻文學中的「盟軍超級電腦」(AM)概念,擔憂若不從根本上改變 LLM 處理不信任輸入的方式,將其連接到關鍵基礎設施無異於安全災難。整體而言,社群共識傾向於認同 LLM 是一個混沌系統,其不確定性與當前軟體工程追求的穩定性背道而馳,而目前的對齊嘗試在惡意攻擊者面前顯得過於脆弱。
延伸閱讀
在討論串中,讀者可以參考 Aphyr 針對此主題發布的其他章節,包含關於 LLM 動力學、文化影響、資訊生態學、日常困擾以及心理危害的深入探討。此外,留言中也提到了經典科幻作品《我沒有嘴巴,但我必須尖叫》(I Have No Mouth, and I Must Scream),作為對失控人工智慧的一種文學隱喻。