大型語言模型的寫作慣用語與套路
這篇文章識別並分析了大型語言模型生成的文本中經常出現的語言模式以及過度使用的陳腔濫調。
背景
隨著大型語言模型(LLM)滲透日常寫作,網路社群開始注意到 AI 生成內容中存在高度重複的特定修辭與結構。這些被稱為「AI 寫作陳腔濫調」(LLM Writing Tropes)的特徵,不僅讓讀者感到審美疲勞,更成為辨識自動化內容的顯著標籤。Hacker News 的討論聚焦於這些模式如何損害內容品質,以及為何現有的模型微調技術似乎加劇了這種僵化的寫作風格。
社群觀點
在社群討論中,最令使用者反感的 AI 寫作特徵是那種刻意營造的「虛假深刻感」。許多留言者指出,AI 極度偏好使用「這不只是 X,而是 Y」的對比句型,並搭配破折號來強化語氣。這種手法在廣告文案中或許有效,但若在短文內頻繁出現,會讓讀者感到被冒犯,彷彿作者在強行推銷某種偽裝成洞見的常識。此外,AI 喜歡將文章標題拆分為「主標題:副標題」的格式,即便在提示詞中明確要求避免,模型仍會固執地產出這種結構,顯示出預訓練或強化學習(RLHF)的權重之深,已非簡單的指令所能扭轉。
除了句式結構,特定詞彙的過度使用也是一大警訊。研究人員發現,GPT-4o 等模型對「tapestry」(織錦/織夢)、「camaraderie」(同志情誼)等詞彙有著異常的偏好。近期模型甚至開始頻繁使用「坦白說」(Honestly)、「真正的」(Genuine)或「實質的」(Real)等詞彙作為開場白,試圖模擬人類的真誠感,但這種過度補償的語氣反而顯得像是在推銷產品的機器人。有網友戲稱,這種風格讓所有文字讀起來都像《Road & Track》雜誌裡的汽車廣告或電影預告片,充滿了誇張的修辭卻缺乏實質內容。
這種現象對內容生態系造成了負面影響。在 YouTube 腳本或技術論壇(如 Reddit 的機器學習版塊)中,充斥著由 AI 生成的虛假討論,導致部分使用者開始對網路內容產生排斥感,轉而只追蹤信任的創作者。有趣的是,研究顯示基礎模型(Base Models)在未經指令微調前,反而較少出現這些風格異常。這引發了社群對現行微調機制的質疑:是否在人工評測階段,評分者過於偏好這種看似專業、禮貌且結構整齊的語氣,才導致模型最終演化出這種令人不安的「NPC 語氣」。雖然有人認為過度在意標點符號或特定句式顯得吹毛求疵,但多數人同意,當這些模式大規模出現時,確實稀釋了人類思想交流的純粹性。
延伸閱讀
在討論中,參與者分享了維基百科(Wikipedia)針對 AI 寫作跡象所整理的詳盡指南。這份資源不僅列出了常見的詞彙偏好,還分析了 AI 在邏輯結構與敘事節奏上的特徵,對於想要深入研究或辨識生成內容的讀者具有高度參考價值。