HN 展示:生成式 AI 寫作大對決

Hacker News·

這篇 Hacker News 文章介紹了一場「生成式 AI 寫作大對決」,旨在比較十種語言模型在創意文本轉換任務上的表現。評估方法是主觀評分模型輸出的結果,重點在於模型能否在保留文本精髓的同時進行修改。

引言

有一個 GenAI 圖像編輯對決 活動,要求圖像編輯模型以特定方式轉換圖像,例如為光頭角色加上頭髮,並對結果進行主觀評分。現在 AI 模型都做得這麼好,我認為這是一種更好的評估方式。只有在人為設計的案例中,我們還在測試 AI 模型是否能做某件事。更好的問題,就像你可能會問你僱用的人一樣,是模型能做得有多好?

與圖像編輯邏輯上相符的任務是文本編輯。在這裡,我們特別關注創意文本,以及模型在保持其他元素(尤其是優秀寫作所喚起的圖像或情感)完整的情況下,轉換文本(例如改變場景或風格)的能力。

方法

我從我認為具有某些有趣特性的書籍中選取了十段文字,然後為每一段文字設計了一個要求轉換的提示。接著,我使用上述的十個模型,並輸入選取的段落和提示。我對所有模型都使用了 OpenRouter 的預設設定,並從相關的快速入門指南中複製。我只取了第一個回應,沒有嘗試重新運行或優化任何提示。

在評分方面,我使用四個等級來評分所有回應:失敗、尚可、良好、優秀。我進行了所有評分,並對模型名稱進行了「盲評」,以避免偏見。在某些情況下,模型提供了多個選項,我只查看了第一個。在某些情況下,模型提供了解釋,我沒有閱讀這些。評分是主觀的,並且符合我的品味。對於每次評估,我都附有一些關於我認為什麼樣的結果是好的筆記。分配給模型的最終分數是通過為每次失敗、尚可、良好和優秀分別加上 0、1、2 或 3 分來計算的。

評論

所有模型都非常出色,因此總體而言,批評和失敗與優秀之間的差異都在細微之處。這在現實世界的寫作中也同樣如此。街上隨機一個人與知名作家之間技能的表面差異並不大。兩者都能夠表達自己,編輯後的差異可能與他們寫的內容沒有太大差別,但影響力卻有數量級的差異。所以基本上我認為讓模型執行寫作任務,然後對它們進行嚴格的批評,是評估它們技能的好方法。這必然需要大量的額外工作,既要進行評估,也要由第三方進行驗證。

另外值得注意的是,在所有這些模型中,結果的共性非常多,不幸的是,我們沒有更多樣性,這有點令人無聊。

正在載入評估數據...

筆記

模態評級為「尚可」。我認為這是合理的,模型都相當不錯,而且在大多數情況下都能執行有能力但並不突出的轉換。這個順序大致反映了人們在其他基準測試中可能預期的結果。在評估時,Gemini 3 Pro 在 Artificial Analysis Intelligence Index 上也是頂級的,而例如 GPT OSS 和 Qwen 則處於頂級模型中的較低端。Llama 3.3 (Llama 4 不在 OpenRouter 上) 在這裡表現超出預期,可能是因為它生成的回复較短,而我更喜歡這一點。GPT 5.2 最有趣,因為它擁有第二多的「良好」回應,但也有第二多的「失敗」回應,因此平均得分較低。了解性能在不同實例之間是否一致會很有趣,例如,它是否總是在某些情況下失敗,或者多次運行相同的提示是否可能在大多數情況下產生一些好的結果。最後,Deepseek 贏得了「最無聊」獎,幾乎所有評級都是「尚可」。

Hacker News

相關文章

其他收藏 · 0