他讓 AI 計算碳水化合物 27,000 次,結果 AI 竟然無法給出兩次相同的答案

Hacker News·

他測試了 AI 計算碳水化合物的能力,在超過 27,000 次的嘗試中,AI 針對相同的輸入內容始終無法給出重複一致的答案,這凸顯了模型在醫療應用背景下的可靠性問題。

背景

這篇討論源於一項針對大型語言模型(LLM)的測試,研究者將同一張食物照片輸入 AI 高達 27,000 次,要求其計算碳水化合物含量。結果顯示,即便面對完全相同的輸入,AI 每次給出的答案幾乎都不相同,且誤差範圍巨大。這項實驗揭示了將非確定性模型應用於醫療與健康決策時的潛在風險,特別是對於需要精確計算胰島素劑量的糖尿病患者而言,這種不穩定性可能導致嚴重的生命威脅。

社群觀點

Hacker News 的網友對此結果並不感到意外,許多人認為這反映了當前大眾對 LLM 運作原理的嚴重誤解。多數評論者指出,LLM 本質上是基於機率預測下一個字元的隨機算法,而非具備邏輯推理能力的「魔法先知」。即便將溫度參數(Temperature)調至最低,其輸出的非確定性依然存在。部分技術背景深厚的網友批評,將這種工具應用於計算碳水化合物本身就是一種「不可能的任務」,因為照片無法提供食物內部的完整資訊,例如三明治內是否塗抹了高熱量的油脂,或是食材的精確重量,這些物理限制並非單靠改進模型就能解決。

然而,討論中也出現了對市場行銷手段的強烈抨擊。網友們認為,OpenAI 等科技巨頭在行銷時過度神化 AI 的能力,將其包裝成能解決人類文明各種難題的萬能助手,導致普通用戶甚至部分工程師產生了錯誤的期待。這種行銷與現實的落差在健康領域尤為危險,留言中提到目前市面上已有如 Cal AI 這樣年營收達數千萬美元的應用程式,宣稱能透過照片計算營養成分,甚至有開源的自動化胰島素系統(iAPS)嘗試整合這類功能。社群對此感到憂慮,認為這類產品在缺乏「即時編譯器」或驗證機制的情況下,正將用戶置於風險之中。

另一派觀點則從實用主義出發,分享了 LLM 在飲食管理上的正面經驗。有網友提到,雖然 AI 無法精確「看圖識物」,但如果用戶主動提供精確的食材標籤照片或重量數據,LLM 在整理數據與估算熱量上確實比傳統資料庫 App 更具效率。這引發了關於教育必要性的討論:學校是否應該像教導使用計算機一樣,教導學生了解 AI 的局限性與弱點。整體而言,社群達成了一種共識:LLM 擅長處理語言與創意任務,但在需要絕對精確與物理感知的領域,目前的技術仍只是「隨機數字產生器」,不應在沒有人工覆核的情況下用於醫療決策。

延伸閱讀

  • Cal AI:一款聲稱能透過照片進行營養分析的熱門 App,據傳已被 MyFitnessPal 收購。
  • iAPS:一個開源的自動化胰島素傳遞系統,討論中提到其生產環境的提示詞(Prompt)被用於此次測試。
  • XKCD 1425:經典的科學漫畫,探討了電腦視覺中「判別照片背景」與「辨識照片內容」在難度上的巨大差異。

Hacker News

相關文章

  1. 請問 HN:你如何應對那些過度信任大型語言模型(LLM)的人?

    大約 1 個月前

  2. 深度研究的難題

    Benedict Evans · 大約 1 年前

  3. 生成式AI在軟體工程中的現實面

    4 個月前

  4. AI 模型是進行推理還是僅僅鸚鵡學舌?

    3 個月前

  5. 坦白說,生成式AI的發展並不如預期順利

    4 個月前

其他收藏 · 0