AI表述風險與新興的審計級證據要求
本文探討了AI系統向外部利益相關者進行不實表述的新興風險,強調了現有控制措施的不足,以及為減輕潛在的法律、財務和聲譽損害而對審計級證據日益增長的需求。
引言
有一個 GenAI 圖像編輯對決 活動,要求圖像編輯模型以特定方式轉換圖像,例如為光頭角色添加頭髮,並對結果進行主觀評分。現在 AI 模型都如此優秀,我認為這是一種更好的評估方式。只有在人為設計的案例中,我們還在測試 AI 模型是否能做到某件事。更好的問題,就像你可能會問你僱用的人一樣,是模型能做得有多好?
與圖像編輯邏輯上相符的任務是文本編輯。在這裡,我們特別關注創意文本,以及模型在保持其他元素(尤其是優秀寫作所喚起的圖像或情感)完整的情況下,將其轉換的能力,例如改變場景或風格。
方法
我從我認為具有某些有趣特性的書籍中選取了十段文字,然後為每一段文字設計了一個要求轉換的提示。接著,我使用上述的十個模型,輸入這些段落和提示。我對所有模型都使用了 OpenRouter 的預設設定,從相關的快速入門指南複製。我只取了第一個回應,沒有嘗試重新運行或優化任何提示。
在評分方面,我使用四個等級來評估所有回應:失敗、尚可、良好、優秀。我進行了所有評分,並對模型名稱進行「盲評」,以避免偏見。在某些情況下,模型提供了多個選項,我只查看了第一個。在某些情況下,它提供了解釋,我沒有閱讀這些。評分是主觀的,並且根據我的品味。對於每次評估,我都會附帶一些關於我認為什麼構成良好評估的筆記。分配給模型的最終分數是通過為每次失敗、尚可、良好和優秀分別加 0、1、2 或 3 分來計算的。
評論
所有模型都非常優秀,因此總體而言,批評和失敗與優秀之間的差異都在細微之處。這在現實世界的寫作中也是同樣的道理。街上隨機一個人與一位知名作家之間在技能上的表面差異並不大。兩者都能表達自己,編輯的差異可能與他們寫的內容差異不大,但影響力卻有數量級的差異。所以基本上我認為讓模型執行寫作任務,然後對它們進行嚴格的批判,是評估它們技能的好方法。這必然需要大量的額外工作,既要進行評估,也要由第三方進行驗證。
還值得注意的是,在所有這些模型中,結果有如此多的共同之處,不幸的是,我們沒有更多樣性,這有點令人厭倦。
正在載入評估資料...
筆記
模態等級為「尚可」。我認為這是合理的,模型都相當不錯,並且在大多數情況下能夠執行但並不令人驚豔的轉換。這個順序大致反映了人們在其他基準測試中可能預期的結果。在評估時,Gemini 3 Pro 在 Artificial Analysis Intelligence Index 上也是頂尖的,而例如 GPT OSS 和 Qwen 則處於頂尖模型中的較低端。Llama 3.3(Llama 4 不在 OpenRouter 上)在這裡表現超出預期,可能是因為它生成的回复較短,而我偏好較短的回复。GPT 5.2 最有趣,因為它擁有第二多的「良好」回應,但也有第二多的「失敗」回應,因此平均得分較低。了解其性能在不同實例中是否一致會很有趣,例如,它是否總是在某些情況下失敗,或者在大多數情況下,將相同的提示運行幾次是否可能產生一些良好的結果。最後,Deepseek 贏得了「最無聊」獎,幾乎所有回應都是「尚可」。
相關文章