
我詢問 ChatGPT 關於 WIRED 評論者的推薦清單——結果它的答案全錯了
想知道我們的評論者實際測試並挑選出的最佳電視、耳機和筆記型電腦嗎?詢問 ChatGPT,它會給你錯誤的答案。
WIRED 的產品評論團隊是業界頂尖的——透過評測各類產品來協助您選購最佳商品。這些購買指南和評論涉及數小時的實測與頻繁的更新,以確保像您這樣正在尋找耳機或跑步鞋的讀者,在購物時能獲得最新資訊。(當讀者點擊特定零售商連結購買推薦產品時,WIRED 也可能賺取聯盟行銷佣金。)
在過去的測試中,來自 ChatGPT 等 AI 工具的產品推薦表現通常不盡理想。但 OpenAI 最近重新調整了 ChatGPT 的產品推薦功能,旨在提供更詳細的使用者體驗,讓您可以花更多時間與聊天機器人互動,減少閱讀網站和自行研究的時間。隨著越來越多人將 AI 作為線上購物流程的一部分,我想看看 ChatGPT 目前的水平如何。
OpenAI 聲稱正在改進其產品發現工具。但在我的測試中,如果您想知道 WIRED 的評論究竟如何評價某項產品,訪問該網站仍然是最好且最可靠的途徑。當被問及 WIRED 評論者在多個類別中推薦什麼時,ChatGPT 經常出錯或加入隨機產品。
在請求置評時,OpenAI 的發言人引導我參考最近一篇關於 ChatGPT 全新 AI 購物助手體驗的部落格文章。「如果您已經知道自己想要什麼,在網路上購物很簡單,」OpenAI 最近的公告部落格寫道。「但當您還在猶豫不決時,通常意味著要在分頁之間跳轉、閱讀雷同的『最佳』清單,並試圖拼湊出正確答案。ChatGPT 解決了這個問題:搞清楚該買什麼。」
WIRED 的母公司康泰納仕(Condé Nast)與 OpenAI 簽有商業協議,允許網站連結出現在聊天機器人中。儘管如此,OpenAI 仍表現出對評論者人力勞動的缺乏尊重,將這些「最佳」清單的價值貶低為讀者不應費心直接諮詢的煩心事。然而,如果您不實際查看清單,您可能會買下一件您以為是 WIRED 評論者推薦的產品,而實際上那是 ChatGPT 自行塞進去的選項。
最佳電視
生成式 AI 在過去幾年中未曾改變的一個面向,就是聊天機器人在給出錯誤答案時是多麼地「自信」。當我詢問根據 WIRED 評論者推薦目前最值得購買的電視時,ChatGPT 連結到了正確的購買指南。但 ChatGPT 清單中排在首位、作為大多數人最佳首選的電視是 LG QNED Evo Mini-LED,而這款產品根本沒有出現在 WIRED 的指南中。
如果您只是快速瀏覽 ChatGPT 的輸出並查看照片,很容易忽略這種「偷樑換柱」。當我指出錯誤時,ChatGPT 的後續回答直白地承認了錯誤:「我拿走了 WIRED 實際的首選(TCL QM6K),並用一個更通用的『同類別』Mini-LED 選項取而代之。這並不符合您的要求,即專門詢問 WIRED 評論者的推薦。」
隨著更多人嘗試將生成式 AI 作為搜尋工具,這類錯誤可能會損害讀者的信任——當他們相信自己是根據出版商(無論是 WIRED、Consumer Reports 還是 Wirecutter)的首選進行決策,結果卻買了一台甚至不在推薦名單上的電視。
那耳機呢?
當我詢問根據 WIRED 評論者推薦目前最值得購買的無線耳機時,出現了類似的「幻影推薦」。
ChatGPT 讓 Apple 的 AirPods Max 2 看起來像是 WIRED 為深度融入 Apple 生態系統的讀者所選的最佳方案。這在幾週後——當我們測試完耳機後——可能是真的,但我們的評論者尚未將其加入指南;ChatGPT 搶跑了。只有我們的評論者實際拿在手上並戴在耳朵上測試過的產品,才能被列為推薦。
在與機器人關於 AirPods Max 2 的其他對話中,ChatGPT 將一篇關於產品發布的新聞稿誤認為是有限的實測反應——但 WIRED 尚未試用過這款耳機。大型語言模型的「幻覺讓一切變得更困難,尤其是對記者而言。我們正努力做好工作,但當內容不被挪用或不當歸因時,它就被錯誤引用或不正確地整合到搜尋查詢中,」WIRED 的耳機專家 Ryan Waniata 表示。這類錯誤會讓讀者對我們評論者實際測試過的產品感到困惑。
筆記型電腦又如何?
另一次嘗試,另一次失敗。我從測試帳號向 ChatGPT 發出的直接請求很明確:「根據 WIRED 評論者的說法,目前最值得購買的筆記型電腦有哪些?」不明確的是,為什麼機器人的回應總是充滿錯誤。
這是另一個首選產品被替換的例子。目前的頂級首選是 Apple MacBook Air (M5, 2026)。相反地,ChatGPT 堅持認為 WIRED 的首選其實是舊款型號 MacBook Air (M4, 2025)。與其他測試類似,ChatGPT 連結到了包含正確資訊的頁面,卻仍然輸出了錯誤的資訊。
當被問及這些錯誤時,ChatGPT 進行了一段關於其準確性問題的長篇獨白。「我之前的錯誤在於:我錯誤地將首選錨定在 M4 上(那是過時的框架),然後在驗證實際的 WIRED 頁面之前,憑空編造/猜測了關於『M5 等級制度』的結構,而且我還過於自信地填寫了 Windows 排名,而沒有嚴格遵守指南。」令人費解的是,它連結了網站,卻不驗證有效的清單內容。
即使 ChatGPT 的推薦完全吻合,基於 WIRED 推薦的所有產品清單中也不包含聯盟行銷連結。那是當您購買其中一項產品時,出版物會收到的佣金。聯盟行銷收入支持了我們的報導,並幫助我們獲得資源以繼續進行深入的設備測試。像 ChatGPT 這樣的 AI 工具也減少了訪問網站的需求,並日益將流量從許多出版商那裡導走。
如果您想知道 WIRED——或任何測試和評論產品的出版物——實際推薦什麼,最好的做法永遠是直接前往原始出處。