AI表述風險與新興的審計級證據要求

Hacker News·4 個月前

本文探討了AI系統向外部利益相關者進行不實表述的新興風險，強調了現有控制措施的不足，以及為減輕潛在的法律、財務和聲譽損害而對審計級證據日益增長的需求。

引言

有一個 GenAI 圖像編輯對決活動，要求圖像編輯模型以特定方式轉換圖像，例如為光頭角色添加頭髮，並對結果進行主觀評分。現在 AI 模型都如此優秀，我認為這是一種更好的評估方式。只有在人為設計的案例中，我們還在測試 AI 模型是否能做到某件事。更好的問題，就像你可能會問你僱用的人一樣，是模型能做得有多好？

與圖像編輯邏輯上相符的任務是文本編輯。在這裡，我們特別關注創意文本，以及模型在保持其他元素（尤其是優秀寫作所喚起的圖像或情感）完整的情況下，將其轉換的能力，例如改變場景或風格。

方法

我從我認為具有某些有趣特性的書籍中選取了十段文字，然後為每一段文字設計了一個要求轉換的提示。接著，我使用上述的十個模型，輸入這些段落和提示。我對所有模型都使用了 OpenRouter 的預設設定，從相關的快速入門指南複製。我只取了第一個回應，沒有嘗試重新運行或優化任何提示。

在評分方面，我使用四個等級來評估所有回應：失敗、尚可、良好、優秀。我進行了所有評分，並對模型名稱進行「盲評」，以避免偏見。在某些情況下，模型提供了多個選項，我只查看了第一個。在某些情況下，它提供了解釋，我沒有閱讀這些。評分是主觀的，並且根據我的品味。對於每次評估，我都會附帶一些關於我認為什麼構成良好評估的筆記。分配給模型的最終分數是通過為每次失敗、尚可、良好和優秀分別加 0、1、2 或 3 分來計算的。

所有模型都非常優秀，因此總體而言，批評和失敗與優秀之間的差異都在細微之處。這在現實世界的寫作中也是同樣的道理。街上隨機一個人與一位知名作家之間在技能上的表面差異並不大。兩者都能表達自己，編輯的差異可能與他們寫的內容差異不大，但影響力卻有數量級的差異。所以基本上我認為讓模型執行寫作任務，然後對它們進行嚴格的批判，是評估它們技能的好方法。這必然需要大量的額外工作，既要進行評估，也要由第三方進行驗證。

還值得注意的是，在所有這些模型中，結果有如此多的共同之處，不幸的是，我們沒有更多樣性，這有點令人厭倦。

正在載入評估資料...

筆記

模態等級為「尚可」。我認為這是合理的，模型都相當不錯，並且在大多數情況下能夠執行但並不令人驚豔的轉換。這個順序大致反映了人們在其他基準測試中可能預期的結果。在評估時，Gemini 3 Pro 在 Artificial Analysis Intelligence Index 上也是頂尖的，而例如 GPT OSS 和 Qwen 則處於頂尖模型中的較低端。Llama 3.3（Llama 4 不在 OpenRouter 上）在這裡表現超出預期，可能是因為它生成的回复較短，而我偏好較短的回复。GPT 5.2 最有趣，因為它擁有第二多的「良好」回應，但也有第二多的「失敗」回應，因此平均得分較低。了解其性能在不同實例中是否一致會很有趣，例如，它是否總是在某些情況下失敗，或者在大多數情況下，將相同的提示運行幾次是否可能產生一些良好的結果。最後，Deepseek 贏得了「最無聊」獎，幾乎所有回應都是「尚可」。

— Hacker News

你的個人知識庫

AI表述風險與新興的審計級證據要求

引言

方法

評論

筆記