大型語言模型生成的文本並非證詞

Lesswrong·

大型語言模型生成的文本缺乏人類思想背後的心理主體性、時間演進與社會問責,因此在溝通與見證的功能上,它無法取代真正的人類文本。

轉載自我的部落格

內容提要

  • 當我們彼此分享文字時,我們在乎的不僅僅是文字本身。我們還在乎——甚至主要是——產生這些文字的人類心智/代理性的心理要素。我們想要交流的是那些心理要素。

  • 截至 2025 年,大型語言模型(LLM)生成的文本背後並不具備這些要素。

  • 因此,LLM 文本在類別上無法承擔真實文本在溝通中所扮演的角色。

  • 因此,規範應當是:你不該像有人執筆那樣分享 LLM 文本。而且,將他人分享的 LLM 文本當作有人執筆的作品來閱讀也是不明智的。

前言

有人可能認為文字可以屏蔽(screen off)思想。假設兩個人遵循不同的思考過程,但隨後產生並發表了完全相同的文字。接著你閱讀了這些文字。思考過程究竟如何,這怎麼可能會有影響?你互動的對象只是文字,所以從邏輯上講,如果兩段文字相同,它們對你的影響就應該相同。

但是,這有點類似於高層級行動無法屏蔽意圖,文字也無法屏蔽思想。你如何詮釋文字並對其做出反應,以及你如何與發表該文字的人互動,都取決於產生該文字的過程。事實上,「[...] 它幾乎可以是任何東西,取決於我說出那些話背後的因果鏈條是什麼」。

這不僅僅是一個純粹的命題認識論問題。還有狹義上的證言(testimony)問題:當你公開主張一個命題時,我希望你在該主張上投入一些名譽成本,以便公眾能夠追蹤你在各個維度上的可靠性。而且,除了狹義的證言之外,還有一種廣義的證言——一種對你心理狀態「珍寶」的普遍揭示,它是脆弱且多產的;一種開啟群體思考的「第三方立場」。我想知道你的信念與行動生成器。我想提出後續問題,並看著你的陳述隨著時間推移,作為實際思考的結果而演變。

本文的其餘部分將通過列舉幾個例子/子案例/說明來闡述這一點。但我最想傳達的核心觀點(簡而言之)是:我們核心關切的是文字背後的思考過程——即產生文字的心智與代理機構的心理狀態。如果你把 LLM 生成的文本當作某人寫的來發表,那麼你就是在強迫我與虛無互動。

(這是這條評論的擴展版本。)

詳細闡述

溝通是為了聽取心智的聲音

  • 與人類文本不同,LLM 文本在結構、時間和社交上都是扁平的。

  • 結構上:LLM 文本背後沒有活生生的心理要素。因此,特定文本中的特定想法,無法透過這些要素折射出特定想法的方式,來揭示其背後有用的心理要素。

  • 時間上:沒有一個心智在進行探究。

它不會自我修正、進行實驗、反思困惑與矛盾、獲取新的相關信息、緩慢地對相關想法進行算法豐富的搜索等等。你無法觀察文本中表達的思想在多篇文本中演變的過程,也聽不到該思想進展的回饋。

  • 特定思想內部的特定張力,無法將局部語境的需求傳達回那些表達了該特定思想背景工作中更全局語境世界的概念。

  • 社交上:你無法質詢該思想,無法對思考者執行規範,而且也沒有一個思考者會對其從思想轉化為文字所產生的突發性群體認識論效應保持敏感。沒有具備正直人格的思考者,也沒有可以與之共同構建合適的新概念和共同意圖/願景的思考者。

  • 這本可以是一封郵件 一個提示詞(prompt)。

為什麼要用 LLM 把它包裝起來?直接給我提示詞就好。

  • 當你發表某些內容時,我希望你是在主張:「這是在考慮到所需付出的努力和話題重要性的情況下,我所能寫出的合理前沿內容,表明了在假定的共享語境下,我認為真實且美好的事物」。LLM 文本不太可能符合這個定義。

  • 如果 LLM 文本包含令人驚訝的內容,而你沒有親自徹底調查,那麼你並不了解它是否正確到足以讓你發布它的程度。請停止這樣做。

  • 如果 LLM 文本包含令人驚訝的內容,而你「確實」親自徹底調查過,那麼你顯然可以寫出更好、更有趣的東西。直接把你調查後學到的最有趣的東西/最有趣的想法以心流(stream-of-consciousness)的方式寫出來。我保證這對所有參與者來說都會更有趣。

  • 如果 LLM 文本不包含令人驚訝的內容,你為什麼覺得你應該發布它?

溝通是為了聽取主張

  • 我們必須將彼此的言論視為主張(assertions)來傾聽。

我們必須在許多問題上聽從彼此,這有利有弊

  • 我們從彼此那裡聽到的大多數陳述,對我們來說都介於有點難到非常難以獨立驗證之間。這包括例如專家意見、專家對冷門觀察和三手證言的熟悉程度、個人故事和個人內省。

  • 從彼此那裡獲取信息是有價值的。但這也意味著我們很容易受到他人決定撒謊、扭曲、欺騙、誤導、過濾證據、設局、羅素共軛(Russell conjugate)、錯誤強調等的影響。

  • 當某人說出一個命題句時,他不僅僅是在發聲;他是在做出一個主張。這涉及一個複雜的心理語境,關於「做出命題主張」究竟是什麼——它涉及擁有語言、概念、命題、概念與感覺器官及執行器之間的預測性和操縱性綁定,以及高階規律性的整套機制;涉及一個代理人試圖應對世界,並因此努力擁有助於應對的心理要素的總體背景,等等。

  • 當他主張 X 時,他是在說:「我在 X 中使用的術語大致就是你認為的意思,正如你一直使用的那樣;如果你嘗試(也許透過向我提出後續問題),你就可以細化對這些術語的理解,足以掌握我說 X 時的意思;X 在我們當前共享的語境中是相關的,例如對我們正在嘗試做的某些任務有幫助,或者基於普遍的好奇心很有趣,或者是你表達過想知道的事情;X 大致代表了我對 X 所談論事物的真實看法;我信奉 X 是有充分理由的,也就是說我對 X 的信念來自一個可以合理預期通常會產生良好且真實陳述的過程,例如透過更新證據和解決矛盾,且如果你想與我對 X 的主張互動,這個過程在未來仍會繼續;我說 X 符合適當的群體認識論立場;……」。

  • 簡而言之,「這是我現在說出來的一件好事」。

這通常(但並非總是)意味著你相信它是真實的,

  • 通常(但並非總是)意味著你相信它是有效的,

  • 通常(但並非總是)意味著你相信我將能夠以有益的方式處理對 X 的主張,

  • 依此類推。

  • 因為我們必須將彼此的言論視為主張來傾聽,所以當我們發表言論供他人傾聽時,我們被要求必須使這些言論成為主張。

如果你不會去割別人的輪胎,你就不應該告訴他們虛假的事情。

  • 如果你不會在炒作週期購買加密貨幣,那麼你就不應該分享病毒式新聞。我是透過慘痛教訓學到這一點的:

我看到一篇隨機的新聞文章分享了令人興奮、著迷的消息:伏尼契手稿(Voynich manuscript)已被破譯!然後我那更冷靜且/或消息更靈通的朋友卻莫名地不感興趣。於是我了解到,伏尼契手稿不僅在那週被破譯了,而且在一個月前、兩個月前以及其他十幾次都被破譯過。

  • 有幾次,人們分享了諸如「AI 剛剛做到了 X!」之類的新聞,而這基本上要麼是胡扯,要麼大部分是胡扯且雖然有點意思,但並不意味著分享者所說的內容。

  • 我分享了最近關於膳食補充劑中含鉛的報告,卻沒有檢查背景(背景是鉛含量實際上是正常的,儘管有那些嚇人的紅色圖表)。

  • 在引言中,我使用了兩個相同文本的例子。但在現實生活中,文本甚至不是相同的。

詞彙、短語、句子結構、論證結構、連接標誌、強調的選擇——所有這些都揭示了你如何思考事物,並傳遞了你心理齒輪力量的微妙之處。「LLM 分辨不出區別」這種高層級的偽等效性,並不能屏蔽底層的世界模型和價值觀!LLM 文本中的實際用詞很糟糕——例如頻繁使用模糊的詞彙,就像 Stable Diffusion 生成的圖像一樣,如果你眼神迷離,它們看起來還算合理,但如果你更敏銳地思考,它們就是毫無意義的廢料(slop)。

  • 也許你認為那是微小的差別。我認為你錯了,但也請考慮這一點……如果差別很小,那麼總效應就是微小乘以 100 或 1000。我以前有時在公開寫作時不按標準的句首大寫方式寫作。我的理由是,如果我能在按 Shift 鍵的認知負荷上節省一點點,我就能更快、更徹底、更成功地產生重要的想法,而這比閱讀體驗上的一些非常細微的差別更重要。在私人交流中我通常仍這樣寫,但在公開場合我通常會使用大寫。這使得視覺解析變得容易一些,例如找到句子的開頭,或者知道何時到達句子的結尾,而不是看到 etc. 卻不知道是不是剛開始了一個新句子。如果文本被 100 或 1000 人閱讀,這種差別就會產生影響。你真的要說所有的選詞和其他小選擇,都比「做這種破事」更不重要嗎?所有值得閱讀的文本都是量身定制的、手工的、一次性的、走地的、自然生長的、慢乾的、刻苦經營的、奧秘的、不可預測的、萬花筒般的、隱寫的——人類的。我們應該鍛煉我們的語言技能。

  • 寫作會讓你想到更多東西。你會練習更清晰、更容易地思考,並重新排列它以便他人準確理解。至少我的壓倒性經驗是,寫作總是會引發一堆新的想法。生成一段描繪你的 AI 替身在鍛煉的影片,並不等同於你實際在鍛煉,哈哈。在公開場合提出一個話題,卻甚至不針對該話題進行這種鍛煉,是一種誤導和頹廢的懶惰,彷彿公眾應該去填補你隨口噴出的想法中的空白。驗證遠非生產,而你甚至連驗證都沒做。

  • 你無法僅僅透過對文本進行更多思考,然後無論如何都保持文本不變,來使文本呈現出更真實或更美好的命題。 然而,如果你「會」在想到應該修改的地方時「確實」去修改文本,那麼你「確實」可以僅透過思考就使文本變得更真實或更美好。在實踐中,如果你這樣做,你「將會」大量修改你的 LLM 文本,因為 LLM 文本「爛透了」。你修改得越多,我的反對意見在量化上就越不適用。

  • 如果你向人類詢問一些哪怕只是稍微專業的話題,比如 17 世紀的西班牙歷史、不同的輪作方法或常微分方程,如果沒有特別的理由讓他們真的很想表現得博學,他們通常只會說「我不知道」。LLM 則完全不是這樣。這在實踐中是一個巨大的差異,至少在我嘗試過的領域(生殖生物學)是如此。LLM 經常給出誤導性的/錯誤的/過時的/模糊但具有欺騙性滿足感的總結。

主張存在於對話中

  • 為了使我們的言論成為主張,我們必須讓它們接受質詢。

LLM 文本不接受質詢。

  • 當你做出主張時,我們需要你在該主張上投入一些你的名譽。

(「我們」不是一個統一的共識群體;而是一組其他個體,以及一些準連貫的子集。)

  • 我們將追蹤你的主張是否良好且真實。我們可能會針對不同的領域和不同的形式進行分別追蹤(例如,如果你在開頭說「這只是一個猜測,但是」,或者如果你處於開玩笑的心情中,等等)。當你是正確的以及當我們時間緊迫(這總是發生的)時,我們會信任你。當你是錯誤的或有毒的時候,我們會貶低你的證言。我們會為你個人追蹤這一點。

  • 如果這聽起來很玄奧,請考慮到你一直都在這樣做。有些人你會在數學方面信任他們,有些人你會在明智地處理情緒方面信任他們,有些人你會在拍出好照片方面信任他們,等等。

  • 如果在語境中無法被合理理解,你就不能回過頭來說「哦,我並不是要你認真對待這個」。你可以說「哎呀我犯了個錯」或者「是的,我碰巧給出了一個偏離共識概率的可能性增量,而這個方向並不是最終發生的情況」。

  • 但如果你在被證明錯誤時試圖貶低你主張的嚴肅性,你就是在會計帳簿上撒謊。例如,如果你試圖透過說「哎呀,我只是在發 LLM 廢料哈哈」來貶低嚴肅性。這不是一種嚴肅的溝通方式。這就像透過瀏覽摘要來搜索學術論文,直到找到一個以模糊方式概括論文主張、且與你想主張的內容大致一致的摘要,然後引用那篇論文。除了試圖顯得有內容的「反內容」之外,它是沒有內容的。

  • 我們可能想要對你進行交叉質詢,就像在法庭上一樣。我們想要澄清不明確的部分。我們想要測試你所代表的世界觀的連貫性。我們想要將你的證言與他人的證言協調起來,和/或發現與他人證言的矛盾之處。

  • 我們想要將多步推論的鏈條追溯回根源證言。

如果大衛判斷愛麗絲應該被排擠,是因為卡羅爾說愛麗絲是個騙子,且因為鮑伯說愛麗絲是個騙徒,但卡羅爾和鮑伯分別都在依賴伊芙關於愛麗絲的證言,那麼這就是我們想要追蹤的事實。

  • 我們想要注意到不同證言之間的矛盾,然後讓原始來源彼此接觸。然後他們可以辯論;或澄清術語並達成和解;或分享信息和想法並更新;或被證明是錯的;或揭示一個真正的困惑/謎團/悖論;或被揭露為騙子。即使一個孤立的主張無法被判定,我們也想注意到一個人在多個語境中何時與他人矛盾(這可能是特別好的行為或特別壞的行為的結果,視情況而定)。

  • 我們想要避免瘴氣式(miasmatic)污染,即水中無來源的主張。

無來源的主張偽裝成共識,並推動實際的共識,從而破壞了實際共識與認識論共識之間的綁定。相反,我們希望主張是由人們說「是的,我見過這個,我透過發表這個你會將其視為主張的言論來告知你」而做出的。

  • 我們不希望人們僅僅重複共識的總結。這會導致理解和有用性梯度的模糊。想想一篇過度烹飪的科學綜述論文,它引用了一切卻沒有壓縮任何東西。它全是真實的,也全是沒用的。而且它甚至不全是真實的,因為如果你不思考,你就不會注意到你正在重複的他人的虛假證言。

  • LLM 文本是由無來源的準共識概括構成的。

  • 被告有某種道德權利去面對其指控者,並免受傳聞的影響,並要求指控者在偽證處罰的威脅下作證。

  • 為了使我們的言論成為有用的主張,參與到與聽眾共同創造世界的過程中,我們必須開放主張的生成器。

LLM 文本往往不那麼令人驚訝——從結構上講,它與已有的內容更相關。

在各個方面都是如此。這隱藏並掩蓋了人類「作者」內部心理狀態的顯現。

  • 我們想要那種不相關性;那種社交局部的理論編織(草根式的喃喃自語——收集信息,假設想法和命題)和理論打造(「只要有足夠多的眼睛,所有的漏洞都是淺顯的」——測試預測,解決矛盾,重新調整理論,在理論之間進行選擇)。

  • 如果你用 LLM 說話,我們就看不見你在想什麼,你是如何思考它的,你是如何產生那種思考方式的,你想要什麼,我們可能在哪些可能性上與你結合,以及我們可以遵循什麼程序來與你進行有用的互操作。

我希望你憑藉自己的力量生成你發表的文本,透過轉動你腦海中的概念,這樣我就能看到那些齒輪在運作,包括它們缺失的齒、粗糙的邊緣以及它們之間的砂礫——還有你的特定排列對於你過去一個月或十年一直在鑽研的特定任務所具有的機械優勢,因為你將你完整實際的人類通用智能應用到了某個獨特的問題上,並創造了一種具有獨特形狀齒輪的獨特排列。

  • 我希望能向你提出後續問題。我希望能向你索要例子、定義、澄清;我想問你考慮過並放棄的其他可能性;我想問你還對什麼感到困惑/不確定,你打算思考什麼,你對什麼最沒信心和最有信心,你認為哪裡還有產生生產性信息收集的空間。

  • 有時當人們看到一些有趣且真實的東西時,他們很難清晰地表達出來。我仍然想要那段文字!一段字面上不正確但卻是人類心智努力表達有趣/有用/新穎/真實事物的結果的文字,仍然是非常有用的,因為結合進一步的信息和思考,我也許能弄清楚你的意思。LLM 文本把所有這些東西都扔掉了。

  • 我想弄清楚你的一些目標/願景是什麼,這樣我們就能找到共同的意圖。這個過程是困難的,是透過間接的吻合(anastomosis)起作用的,而不是透過你在提示詞中輸入一個明確的點讓 LLM 來把它變得平庸。

  • 別再試圖欺騙我,讓我以為你真的知道自己在說什麼。

  • 非證言類言論不需要被回應,以免變成「釣魚(trolling)」——廉價產生的、看似論述但背後沒有模型的言論,旨在堵塞你的注意力路徑,並透過讓你到處追逐幻影來羞辱你。

  • 一句由 LLM 寫下的話,是無人對無人說的,沒有理由,背後沒有代理性的心理狀態,沒有主張者來參與那些主張通常應該參與的持續的世界共同創造。

Lesswrong

相關文章

  1. 我如何不再確信大型語言模型只是在編造其內部體驗(但該主題仍令人困惑)

    4 個月前

  2. 別讓大型語言模型代你寫作

    大約 1 個月前

  3. 機器幻覺:大型語言模型與認知俘獲

    25 天前

  4. 讓我認識真實的你,包含那些錯誤與瑕疵

    Hacker News · 大約 1 個月前

  5. 請問 HN:你如何應對那些過度信任大型語言模型(LLM)的人?

    Hacker News · 大約 1 個月前