OpenAI 全面強化 ChatGPT 圖像生成模型

OpenAI 全面強化 ChatGPT 圖像生成模型

Wired - AI·

ChatGPT 圖片 2.0 模型已經問世。我們的測試顯示它在創建更詳細的圖像和呈現文字方面表現更佳,但在處理英文以外的語言時仍然面臨挑戰。

OpenAI 於週二發布了名為 ChatGPT Images 2.0 的全新圖像生成 AI 模型。該模型可以根據單一提示詞生成多張圖像(例如一整本學習手冊),並能輸出包含中文和印地語等非英語語言的文字。此版本已全球開放給 ChatGPT 和 Codex 用戶使用,付費用戶則可使用功能更強大的版本。

每當主要的 AI 公司發布新的圖像模型時,往往能重新引發關注並提升使用率,特別是當社群媒體用戶發起具迷因潛力的趨勢,轉化自己的照片時。去年,Google 發布 Nano Banana 模型對該公司而言是一個重大時刻,尤其是當用戶開始在網路上發布超寫實的個人公仔圖像時。今年早些時候,隨著用戶分享 AI 生成的諷刺漫畫,ChatGPT Images 也在社群媒體上掀起熱潮。

圖像可能包含出版物、廣告、海報、臉部、頭部、人物、成年人、婚禮配件和太陽眼鏡

由 OPENAI 生成之 AI 圖像

有何不同?

由於新模型可以運用 ChatGPT 的「推理」能力,Images 2.0 能夠搜尋網路上的最新資訊,並一次生成多張圖像。本質上,該機器人可以透過額外的步驟,根據單一提示詞輸出更詳盡的生成內容。Images 2.0 還擁有更新的知識截止日期:2025 年 12 月。

這也意味著新模型的輸出更加細緻。例如,我生成了一張包含舊金山隔日天氣預報以及值得推薦的活動的資訊圖表。ChatGPT 生成的圖像包含了雨天的準確天氣細節,以及看起來非常寫實的渡輪大廈(Ferry Building)、卡斯楚劇院(Castro Theater)、彩繪女士(Painted Ladies)建築群和泛美金字塔(Transamerica Pyramid)的繪圖。

此外,對於希望圖像輸出具有獨特長寬比的用戶,Images 2.0 提供了更高的自定義程度。新模型可以生成從 3:1 寬到 1:3 高的圖像,用戶可以在向 AI 工具發出提示時調整圖像尺寸。

初步印象

在使用新模型生成圖像幾個小時後,我對其文字渲染能力(至少在英語方面)感到印象深刻。就在不久前,各大主要模型輸出的帶文字圖像通常包含許多畸形字符或帶有錯誤多餘字母的單詞。兩年前,ChatGPT 在準確標註圖像方面還很吃力,因此 Images 2.0 更乾淨、更複雜的輸出是持續進步的標誌。Google 在其最近迭代的 Nano Banana 中也專注於改進包含文字的圖像輸出。

圖像可能包含廣告、海報、人物、飲料、咖啡、咖啡杯、服裝、大衣和夾克

由 REECE ROGERS 生成之 AI 圖像

為了測試新模型在不同語言下的輸出效果,我要求 ChatGPT 生成一張以提摩西·夏勒梅(Timothée Chalamet)為主題的拼貼海報,風格像是出自他的中國粉絲之手。輸出結果包含了一系列這位影星的寫實圖像,有些穿著傳統服飾,有些則被畫上了貓耳朵。這張 AI 拼貼畫在細節上極具繁複美學,包含超過 20 段不同的文字片段,以及餃子、珍珠奶茶和熊貓的圖像。

我不懂中文,所以我用一個簡單的提示詞詢問機器人翻譯:「那些文字寫了什麼?」ChatGPT 的回答對其自身的輸出頗具批判性。

「其中很多是虛假的,或者是為了看起來像中文迷因海報文字而包裝出來的半胡言亂語 AI 文字,所以無法全部清晰翻譯,」ChatGPT 的輸出在列出哪些看起來準確、哪些看起來不對勁之前如此寫道。「還有一些部分顯然是畸形的,或者是混入了看起來像日文的字符,比如清單卡片和右側的一些裝飾線條。那些大多是為了模仿東亞粉絲剪輯文字而製造的廢話,而非準確的句子。」

圖像可能包含提摩西·夏勒梅、提摩西·夏勒梅、提摩西·夏勒梅、提摩西·夏勒梅和提摩西·夏勒梅

由 REECE ROGERS 生成之 AI 圖像

因此,雖然新的 ChatGPT Images 模型在我的初步測試中生成英文文字表現良好,但我不確定全球用戶在生成各自語言時是否會有類似的結果。不過,隨著 OpenAI 在改進 AI 圖像英文輸出方面取得的進展,如果未來結合更多來自世界各地的用戶數據,從而帶動該模型在後續迭代中取得進一步改進,我也不會感到意外。

Wired - AI

相關文章

其他收藏 · 0