newsence
Descript 如何實現大規模多語言影片配音

Descript 如何實現大規模多語言影片配音

OpenAI·大約 1 個月前

Descript 使用 OpenAI 推理模型來擴展多語言影片配音規模,針對意義與時長同步優化翻譯,使配音在不同語言中聽起來都能保持自然。

2026 年 3 月 6 日

Descript 如何實現大規模多國語言影片配音

透過使用 OpenAI 推理模型,Descript 成功實現了大型內容庫的自動化在地化,且不會損失時間軸精準度或原意。

Descript⁠(在新視窗中開啟)是一款 AI 原生影片編輯器,其核心理念非常簡單:如果你能編輯文字,你就應該能編輯影片。自 Descript 創立初期以來,AI 就驅動著產品的各個面向:逐字稿轉錄、編輯、音訊清理,以及日益複雜的創意工作流。他們多年來一直基於 OpenAI 進行開發,使用 Whisper 進行轉錄,並在其協作編輯工具 Underlord 中使用 GPT 系列模型。

翻譯很快就成為一個高影響力的使用案例。傳統上,翻譯影片既緩慢又昂貴,需要語言專家來管理專案、產出例行翻譯、處理品質控制並生成相應的音訊。大型語言模型(LLM)極大地壓縮了該工作流,使大規模的高品質翻譯成為可能。

字幕和配音都需要語義忠實度:翻譯必須保留原始含義。但「時長符合度」在兩者中扮演的角色不同。對於字幕來說,這是加分項;但對於配音來說,這至關重要,因為如果翻譯後的語音太長或太短,即使意思正確,聽起來也會很不自然。

為了瞭解決這個問題,Descript 使用 OpenAI 推理模型重新設計了其翻譯流程,在生成過程中(而非生成後)優化語義忠實度和時長符合度。在推出後的首個 30 天內,帶有配音的翻譯影片導出量增加了 15%,且時長符合度提高了 13 到 43 個百分點(視語言而定)。

「配音是 Descript 越來越受歡迎的使用案例,因此我們正在為希望批次翻譯和對齊口型(lip-sync)整個內容庫的公司開發相關方法,」執行長 Laura Burkhauser 表示。

配音功能遇到瓶頸之處

翻譯是 Descript 最早且需求最高的功能之一。他們從僅限字幕的翻譯開始,效果很好——但許多使用者希望更進一步,擁有目標語言的口說音訊(配音)。

然而,一個問題不斷浮現:配音後的音訊聽起來並不總是正確。「我們聽到排名第一的抱怨可能是,翻譯語言的說話節奏很不自然,」Descript AI 產品負責人 Aleks Mistratov 說道。

問題在於不同的語言表達同一個概念所需的時間不同。Descript 觀察到,例如平均而言,德文是比英文更「長」的語言。為了適應固定的影片片段,翻譯後的語音通常必須人為地加速或減速。「你最終會得到聽起來像花栗鼠或瞌睡巨人的聲音,」Mistratov 解釋道。

英文:

德文:

“Please review the safety guidelines before operating the machine.”

音節數:18

“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”

音節數:24(增加 40%)

在這種情況下,德文音訊要麼必須不自然地加速,要麼翻譯內容需要重新編寫以符合時間預算。

使用者面臨兩種選擇:手動逐段調整音訊時間,或重新編寫翻譯內容以使其符合時長。這兩種方法都需要深度的時間軸編輯,且通常需要具備目標語言近乎母語的流利度。這對創作者來說非常乏味,並成為將該功能擴展到大型企業在地化專案的阻礙。

針對時間而非僅針對含義優化翻譯

團隊對於如何讓配音奏效有一個明確的理論。系統不僅需要優化語義含義,還需要意識到時間限制。例如,在從英文翻譯成德文時,模型需要理解如何使用更少的詞彙或簡化概念,以便配音後的音訊保持自然。

早期的做法是先優化語義忠實度,然後嘗試在事後修正時間。翻譯內容通常在語義上是正確的,但經常無法滿足時長限制,整體品質仍不夠理想。

「我們進行了增量測試,甚至不生成任何內容,只是要求模型輸出一段文字中的音節數量,」Mistratov 說。「早期的模型根本不擅長這點。」

可靠的音節計數被證明是關鍵。如果模型無法一致地計算音節,它就無法可靠地對準特定的時長窗口。

GPT-5 系列模型帶來了早期模型所缺乏的推理一致性,特別是在音節計數和約束追蹤等任務上。有了這項改進,Descript 重新設計了其翻譯和配音流程。

首先,Descript 的系統會根據原始錄音中的句子邊界、自然停頓和說話模式將逐字稿切分成塊。每個區塊保持語義連貫性,但又足夠小,可以作為一個時間單位進行推理。

接著,模型會計算該區塊中的音節數量。利用特定語言的說話速率假設,系統會估計翻譯後的區塊應瞄準多少音節,以保持自然節奏(「時長符合度」)。提示詞(Prompt)要求模型同時優化時長符合度和含義保留。周圍的區塊會作為上下文傳入,以便模型在各個片段之間保持語義連貫。

團隊評估了多種配置,以平衡時長符合度、語義忠實度、延遲和成本。選定的方案在生產速度下提供了強大的約束遵循能力,實現了無需手動調整時間的大批量翻譯。其結果是一個將節奏視為一等變量(first-class variable)而非事後修正項的翻譯流程。

定義並衡量自然節奏

為了制定評估(evals)的驗收標準,團隊進行了聽力測試:他們生成翻譯後的音訊樣本,並以微小增量調整播放速度,要求使用者評分語音何時變得不自然。

「任何減速 10% 或加速 20% 的內容,通常聽起來仍然自然,」Mistratov 說。超過這個範圍,語音就會變得太失真。

早期系統在該指標上表現不佳。視語言而定,只有 40% 到 60% 的片段落在可接受的節奏窗口內。透過重新設計的流程,這一數字從 40%–60% 增加到 73% 至 83% 之間(視語言而定)。

團隊還使用另一個「模型作為評審」(model-as-judge)的方法評估語義忠實度,評分標準為 1(完全不同)到 5(語義等效)。對於配音,他們決定接受比僅限字幕翻譯更低的語義門檻,因為後者不需要考慮時間約束。即便在這種權衡下,仍有 85.5% 的片段在語義符合度上獲得了 4 分或 5 分(滿分 5 分)。

結果是一個能夠以可衡量的信心平衡兩個競爭約束(時間與含義)的系統。由於這兩項指標都是自動化的,Descript 能夠針對相同的基準持續評估新發佈的模型和提示詞變體。

開啟大規模影片在地化

隨著翻譯從單一影片擴展到大型內容庫,Descript 正在為翻譯的調整方式建立更多控制權,包括在需要時優先考慮更嚴格語義忠實度的能力。

Descript 內部的翻譯只是更廣泛的多模態系統中的一層。翻譯後的文字會饋送到語音生成系統,進而驅動口型同步和最終的影片渲染。

文字層面的改進使自然節奏成為可能,但整體體驗還取決於音訊模型保留語音語調、韻律和非語言特徵的效果。這正是團隊看到的下一個前沿領域。

「提升翻譯輸出的很大一部分將在於使流程更加多模態:在決定如何翻譯時,將音訊、影片和文字結合在一起,」Mistratov 說。「這應該能更好地保留語音的非語言特徵,如語調和重音,並保留更多原始的表達方式。」

對於 Descript 來說,更強大的推理模型使配音的複雜性變得可處理。透過跨越模型可以可靠平衡節奏與含義權衡的門檻,翻譯成為團隊可以系統性改進並大規模部署的功能。

加入工作新時代

延伸閱讀

oai Balyasny 1x1

API 2026 年 3 月 6 日

oai TrustBank English 1x1

API 2026 年 1 月 27 日

EF Ep18 1.1

API 2026 年 1 月 26 日

https://openai.com/index/descript