
僅需 165 美元:跨 25 個物種訓練 mRNA 語言模型
我們構建了一個端對端的蛋白質 AI 管道,涵蓋結構預測、序列設計與密碼子優化,並發現在跨 25 個物種的密碼子層級語言建模中,CodonRoBERTa 的表現顯著優於 ModernBERT。
以 165 美元跨 25 個物種訓練 mRNA 語言模型
第二部分:構建流水線,從結構預測到密碼子優化
由 OpenMed 提供,醫療保健與生命科學領域的開源代理式 AI
摘要(TL;DR): 我們構建了一個端到端的蛋白質 AI 流水線,涵蓋結構預測、序列設計和密碼子優化。在比較了多種用於密碼子級別語言建模的 Transformer 架構後,CodonRoBERTa-large-v2 以 4.10 的困惑度(Perplexity)和 0.40 的 Spearman CAI 相關性脫穎而出,顯著優於 ModernBERT。隨後,我們將規模擴展到 25 個物種,在 55 個 GPU 小時內訓練了 4 個生產級模型,並構建了目前其他開源項目尚未提供的物種條件化系統。完整的結果、架構決策和可運行代碼如下。
目錄
想像一下,在一個下午的時間內,從一個治療性蛋白質概念轉化為可供合成、經過密碼子優化的 DNA 序列。這就是 OpenMed 致力於構建的流水線,本文記錄了從開始到結束的全過程。
在第一部分中,我們繪製了蛋白質 AI 的藍圖:驅動結構預測的架構、可用於蛋白質設計的開源工具,以及從 AlphaFold 到 ESMFold 的模型生態系統。那是綜述,而這篇是實戰。
在 OpenMed,我們致力於構建一個完整的流水線,將蛋白質構思從概念轉化為可供表達的 DNA。這意味著三個階段:預測蛋白質的 3D 結構、設計能摺疊成該結構的氨基酸序列,以及優化底層的 DNA 密碼子,使蛋白質能在目標生物體中實際表達。在此過程中,我們進行了廣泛的實驗,比較了用於密碼子優化的 Transformer 架構,將我們最好的模型擴展到 25 個物種,並構建了將這一切聯繫在一起的工具。
這不是一個粉飾過的成功故事。這是一個透明的記錄,包含哪些方法奏效、哪些讓我們感到驚訝,以及我們會做出哪些不同的改進,並在每一步都提供可運行的代碼和完整結果。
1. 我們構建了什麼
該流水線由三個組件組成,每個組件對應第一部分中描述的蛋白質工程工作流的不同階段。結構預測決定蛋白質的形狀。序列設計決定哪些氨基酸會產生該形狀。密碼子優化則決定哪些 DNA 能在活細胞中高效產生這些氨基酸。
mRNA 優化工作是我們投入精力最多、也是分享內容最豐富的部分。摺疊和設計組件使用了成熟的工具(來自 Meta 的 ESMFold 和來自 Baker 實驗室的 ProteinMPNN,兩者在第一部分中都有深入探討)。密碼子優化組件則完全由我們自主研發:新的模型、新的訓練基礎設施和新的評估指標。
2. 架構探索
在第一部分中,我們調查了蛋白質 AI 領域,並指出大多數生物語言模型都是自然語言處理(NLP)架構的改編。懸而未決的問題是:哪種架構最合適?BERT 變體在蛋白質建模中佔據主導地位(如 ESM-2、ProtTrans),但密碼子序列具有與自然語言和氨基酸序列不同的統計特性。密碼子是由 64 個標記(token)組成的三聯體,具有強烈的位置依賴性和物種特異性的使用偏好。我們需要從基本原理出發,找出有效的方法。
核心問題:哪種 Transformer 架構最適合密碼子級別的語言建模?
這點至關重要,因為密碼子優化對於治療性 mRNA、疫苗和重組蛋白生產極為關鍵。遺傳密碼是簡併的:同一種蛋白質可以由天文數字般多種不同的 DNA 序列編碼,但某些密碼子排列的表達效果比其他排列好 100 倍。例如,輝瑞-BioNTech 的新冠疫苗就針對人類表達進行了密碼子優化。我們希望構建一個能直接從自然編碼序列中學習這些偏好的模型,而不是依賴人工製作的頻率表。
競爭者
我們從一個小型的 CodonBERT 基準模型(6M 參數,遵循 Sanofi 發表的架構)開始,並通過兩個家族進行擴展:ModernBERT(代表 NLP 社區最新的效率創新)和 RoBERTa(Meta 的 ESM 蛋白質語言模型背後久經考驗的功臣)。
選擇 RoBERTa 是深思熟慮的。正如我們在第一部分中所討論的,Meta 的 ESM-2(驅動 ESMFold)本身就是一個在蛋白質序列上訓練的 RoBERTa 變體。我們假設,學習氨基酸模式的同一架構家族可能也能學習密碼子模式。ModernBERT 則是對照組:這是一個 2024 年的架構,具有 RoPE 嵌入、Flash Attention 以及交替的局部/全局注意力層,代表了 NLP 社區自 2019 年 RoBERTa 發布以來學到的所有經驗。
訓練設置
為了確保公平比較,每個模型都在相同的數據上使用相同的評估協議進行訓練。我們使用了來自大腸桿菌(E. coli)RefSeq 的 250,000 條編碼序列(CDS),涵蓋染色體和完整組裝序列。這是一個乾淨、標註良好的數據集,其密碼子使用模式在文獻中已有詳盡描述,為我們提供了可供驗證的基準真相(ground truth)。
我們的分詞器(tokenizer)將每個密碼子映射到單個標記:64 個密碼子加上 5 個特殊標記(PAD, UNK, CLS, SEP, MASK),共 69 個標記的詞彙表。這是刻意保持精簡的。與 NLP 中統計學習子詞邊界的 BPE 分詞器不同,密碼子邊界在生物學上是明確定義的。每三個核苷酸編碼一個氨基酸。我們的分詞器遵循這一規律。
訓練在 4 塊 A100 GPU (80GB) 上運行,使用 FSDP 分片,根據模型大小進行 15,000 到 25,000 步訓練。所有模型均使用遮蓋語言建模(MLM),遮蓋率為 15%,這與 ESM-2 用於蛋白質序列的目標相同。
結果
結果非常明確:RoBERTa 在困惑度上優於 ModernBERT 6 倍(4.01 對 26.24)。這不是微小的差距。儘管 ModernBERT 擁有現代化的注意力模式和高效架構,但在密碼子序列上的表現根本無法與經典的 RoBERTa 設計相比。
我們的發現
1. 預訓練的 NLP 權重無法轉移到生物學
我們從發布的英文權重初始化 ModernBERT,期望學習到的注意力模式能提供一個有用的起點。結果並非如此。我們最好的解釋是:ModernBERT 在英文文本上的預訓練灌輸了歸納偏置(子詞頻率分佈、位置注意力模式),這些偏置主動干擾了密碼子統計規律的學習。而 RoBERTa 採用隨機初始化並純粹在生物數據上訓練,則沒有這種負擔。這與該領域更廣泛的觀察一致:ESM-2 和 ProtTrans 都是從頭開始在生物數據上訓練,而不是從 NLP 權重進行微調。
2. 超參數微調解鎖了生物學一致性
這是探索中最令人驚訝且具備實際意義的發現。比較 CodonRoBERTa-large v1 和 v2:
相同的架構。相同的數據。相同的參數數量。唯一的區別:學習率減半和更長的預熱步數(2,000 步對 1,000 步)。然而,v2 預測的密碼子似然度與真實生物密碼子偏好的相關性(通過密碼子適應指數 CAI 測量)提高了 16 倍。
困惑度實際上略微變差了(4.10 對 4.01),這意味著 v2 在預測確切被遮蓋密碼子的準確性上略低。但它在預測生物體實際使用的密碼子方面表現出色得多。較慢的訓練進度讓模型沉澱出捕捉真實生物信號的表示,而不是過度擬合表面統計數據。
對於任何訓練生物語言模型的人來說,這都是一個關鍵見解:僅靠 MLM 損失無法衡量生物學相關性。領域特定的指標至關重要。在我們的案例中,CAI 相關性成為區分「有用模型」與「技術指標亮眼但生物學上無意義模型」的關鍵指標。
3. 基礎模型效率驚人
CodonRoBERTa-base(92M 參數)實現了與大型模型幾乎相同的困惑度(4.01 對 4.10),但參數減少了 3.4 倍,訓練時間也按比例縮短。雖然其 CAI 相關性(0.219)低於 v2(0.404),但仍遠高於基準模型和 ModernBERT。對於無法使用多 GPU 集群的團隊來說,基礎模型是一個實用的選擇,能以極低的成本捕捉大部分密碼子建模性能。
3. 流水線
在第一部分中,我們描述了大多數計算蛋白質工程項目遵循的三階段工作流:預測結構、設計序列、優化密碼子。在這裡,我們使用真實數據運行每個階段,並報告實際獲得的結果。
3.1 使用 ESMFold 進行蛋白質摺疊

ESMFold 架構。模型通過 ESM-2 編碼器解析單個氨基酸序列,然後通過摺疊主幹和結構模塊預測 3D 坐標。圖片引用自 Bertoline et al., Biomolecules 2024, CC-BY 4.0。
正如第一部分所述,ESMFold 是 Meta 的單序列結構預測器。它使用 ESM-2(一個在 6500 萬條 UniRef 序列上訓練的 150 億參數蛋白質語言模型)作為骨幹。與 AlphaFold 2 相比,其核心優勢在於速度:ESMFold 跳過了計算量巨大的多序列比對(MSA)步驟,直接從單個氨基酸序列預測結構。這使得處理每種蛋白質的時間從數小時縮短到數秒。
權衡之處在於準確性。ESMFold 在 CASP14 目標上的 TM-score 約為 0.87,而 AlphaFold 約為 0.92。對於快速原型設計和候選篩選,這個差距是可以接受的。當流水線生成 100 個設計序列並需要重新摺疊所有序列以檢查可行性時,速度比最後幾個百分點的準確度更重要。
我們的結果:30 條蛋白質鏈
我們對來自蛋白質數據庫(PDB)的 30 條蛋白質鏈運行了 ESMFold。這些是具有已知基準真相的真實實驗結構,序列長度從 211 到 519 個殘基不等。該集合刻意包含了簡單目標(單結構域蛋白)和挑戰性目標(來自多鏈核糖體複合物 PDB 7K00 的鏈),以對模型進行壓力測試。
結果詳情:
| 指標 | 平均值 |
|---|---|
| 平均 pLDDT | 61.2 |
| 平均 PTM | 0.79 |
PTM 分數很紮實:任何高於 0.5 的分數都表明模型掌握了正確的整體拓撲結構,而我們 0.79 的平均值表示對預測摺疊的高度信心。pLDDT 分數低於已發表的 ESMFold 基準,這最初讓我們感到擔憂。解釋結果是我們的測試集組成:來自 7K00 的核糖體鏈是大型多鏈複合物的一部分,而 ESMFold(孤立地預測單鏈)無法模擬穩定這些結構的鏈間接觸。對於我們集合中的單結構域蛋白,pLDDT 分數始終高於 70。
運行 ESMFold
在 A100 上每次預測大約需要 10-30 秒。輸出包括:
- 包含 3D 坐標的 PDB 文件。
- 每個殘基的置信度分數(pLDDT)。
- 預測的對齊誤差(PAE)矩陣。
3.2 使用 ProteinMPNN 進行序列設計
ProteinMPNN 架構。(A) 編碼器處理骨架原子距離;解碼器自回歸生成氨基酸序列。(B) 隨機解碼順序提高了多樣性。(C) 綁定位置實現了對稱和多狀態設計。圖片引用自 Dauparas et al., Science 2022, CC-BY 4.0。

正如我們在第一部分中所述,蛋白質設計是蛋白質摺疊的逆過程。摺疊是從序列到結構:給定氨基酸,預測 3D 形狀。逆向摺疊則相反:給定目標 3D 形狀,尋找能摺疊成該形狀的氨基酸序列。
來自華盛頓大學 David Baker 實驗室的 ProteinMPNN 是目前該任務的金標準。它於 2022 年發表在《Science》雜誌上,並已通過實驗驗證:設計序列摺疊成目標結構的成功率遠超隨機或早期的計算方法。該架構將蛋白質骨架視為一個圖,節點是氨基酸位置,邊連接空間鄰近的殘基(3D 中的 K-最近鄰)。消息傳遞神經網絡在該圖中傳播信息,然後一次一個殘基自回歸地生成序列。
我們的結果:支架 7K00
我們在 PDB 結構 7K00(一個大型多鏈核糖體複合物)上運行了 ProteinMPNN:
結果:
- 序列恢復率: 42.1%
- 平均分數: 0.81(負對數似然)
輸出示例:
>Native
MVVTTK...
>Design_1, score=0.812, recovery=0.421
MVVTRK...
第一行是從晶體結構中提取的天然序列。後續行是 ProteinMPNN 設計的變體。在溫度 0.1(低隨機性)下,模型純粹根據 3D 幾何結構恢復了約 42% 的原始氨基酸。這是一個強大的結果:這意味著模型僅使用骨架坐標作為輸入,就獨立地重新發現了進化選擇的近一半殘基。
運行 ProteinMPNN 的幾點實務筆記:分數是負對數似然,因此越低越好。42% 的恢復率對於高分辨率結構來說是典型的,且與原始論文的基準一致。較高的採樣溫度會產生更多樣化但風險更高的序列。對於真實的設計工作,最強大的功能是局部設計:催化殘基、結合位點氨基酸或任何具有已知功能重要性的位置都可以固定不變,而 ProteinMPNN 僅重新設計其周圍的支架。這是工程化更穩定酶版本而不破壞其活性位點的標準方法。
3.3 mRNA 優化
這是流水線從現有工具轉向我們自主研發模型的階段。ESMFold 和 ProteinMPNN 是我們整合的成熟、經過驗證的軟件。密碼子優化則是我們創新之處。
為什麼密碼子選擇很重要
密碼子使用頻率在不同生物體之間差異巨大。這些熱圖比較了大腸桿菌、酵母和 CHO 細胞(我們多物種模型涵蓋的三種表達宿主)的密碼子偏好。圖片引用自 Kim et al., J. Microbiol. Biotechnol. 2025, CC-BY 4.0。

遺傳密碼是簡併的:大多數氨基酸由多個密碼子編碼。例如,亮氨酸(Leucine)有六個:TTA、TTG、CTT、CTC、CTA 和 CTG。這六個密碼子在最終蛋白質中產生相同的氨基酸。甲硫氨酸和色氨酸是例外,各只有一個密碼子。
這種冗餘意味著對於任何給定的蛋白質,都有天文數字般多種 DNA 序列可以編碼它。一個典型的 300 個氨基酸的蛋白質大約有 10^150 種可能的密碼子組合。它們都產生相同的氨基酸鏈,但產生的蛋白質產量卻不盡相同。密碼子選擇會影響翻譯速度(因為不同密碼子的 tRNA 分子豐度不同)、mRNA 穩定性(因為核苷酸序列影響轉錄本降解速度)、共翻譯摺疊(因為在稀有密碼子處的翻譯暫停讓蛋白質有時間摺疊)以及免疫識別(因為哺乳動物細胞的先天免疫系統可以區分天然和外源 mRNA 模式)。在實踐中,糟糕的密碼子選擇會使蛋白質表達降低 100 倍。這就是為什麼每種 mRNA 疫苗、每種重組蛋白藥物和每種基因治療載體都要經過密碼子優化。
傳統方法及其局限性

密碼子優化問題的規模。對於典型的 mRNA,有超過 10^600 種可能的密碼子序列編碼同一蛋白質。挑戰在於找到能最大化表達的排列。圖片引用自 Zhang et al. (LinearDesign), Nature 2023, CC-BY 4.0。
經典方法很簡單:測量目標生物體高表達基因中最常出現的密碼子,然後將每個密碼子替換為最常用的同義密碼子。這被編纂為密碼子適應指數(CAI),這是一個衡量密碼子使用與生物體首選分佈匹配程度的序列評分。
基於 CAI 的優化有效,但很粗糙。它獨立對待每個密碼子位置,忽略了序列上下文。它會產生重複序列(對於給定氨基酸,到處使用相同的「最優」密碼子),這可能導致核糖體停滯和 mRNA 二級結構問題。而且它遺漏了複雜的依賴關係:第 50 位的最優密碼子可能取決於第 48 位和第 52 位是什麼密碼子,這是頻率表無法捕捉的。
我們的方法:遮蓋語言建模
我們將密碼子優化重新定義為一個語言建模問題。我們不再查閱頻率表,而是在數十萬條自然編碼序列上訓練 Transformer,使用遮蓋語言建模(MLM),這與 BERT、RoBERTa 和 Meta 的 ESM 蛋白質模型使用的預訓練目標相同。模型看到一個被遮蓋了 15% 位置的密碼子序列,並學習根據上下文預測缺失的密碼子。
模型隱式學習到的是密碼子使用的「語法」:哪些密碼子模式出現在自然界中,哪些密碼子傾向於共同出現,以及偏好如何隨周圍序列上下文而變化。這從根本上比頻率表更豐富,因為模型捕捉了整個編碼序列中的長程依賴關係。
CodonRoBERTa:我們最好的模型
經過架構探索(見上文),CodonRoBERTa-large-v2 脫穎而出:
- 參數: 3.12 億
- 架構: 24 層,16 個注意力頭
- 訓練: 在大腸桿菌 CDS 上進行 25,000 步訓練
評估:三個關鍵指標
評估密碼子語言模型並不簡單。正如我們從上文 v1/v2 的比較中學到的,一個模型可能具有極佳的困惑度(準確預測遮蓋的密碼子),但生物學一致性卻很差(預測自然界並不偏好的密碼子)。我們從三個互補的維度進行評估:
-
困惑度(Perplexity): 衡量模型預測遮蓋密碼子的能力,計算為指數化的交叉熵損失。4.10 的困惑度意味著模型在每個遮蓋位置平均在約 4 個等可能的密碼子中做出選擇。考慮到大多數氨基酸有 2-6 個同義密碼子,這表明模型學到了有意義的偏好,而不是隨機猜測。越低越好。CodonRoBERTa-large-v2:4.10。
-
CAI 相關性(Spearman): 衡量模型的預測密碼子似然度是否與已知的生物密碼子使用偏好一致。我們計算每個測試序列的密碼子適應指數,然後將其與模型的偽對數似然分數(pseudo-log-likelihood)進行相關性分析。正相關意味著模型為生物體實際使用的序列分配了更高的概率。這是實際密碼子優化中最重要的指標,因為它直接衡量模型是否學到了生物學相關模式,而不僅僅是統計模式。CodonRoBERTa-large-v2:0.404 (p < 10^-20)。
-
同義恢復率(Synonymous Recovery): 當模型為遮蓋位置預測密碼子時,它至少能預測對氨基酸嗎?即使它選錯了同義詞(例如,用 CTT 代替 CTC 來表示亮氨酸),預測出正確的氨基酸也表明模型理解蛋白質級別的約束。CodonRoBERTa-large-v2:12.1% top-1 同義恢復。
最終排行榜
綜合各個模型變體的表現:
| 模型 | 參數 | 困惑度 (↓) | CAI 相關性 (↑) |
|---|---|---|---|
| CodonBERT (基準) | 6M | 12.45 | 0.08 |
| ModernBERT-base | 149M | 26.24 | 0.04 |
| CodonRoBERTa-base | 92M | 4.01 | 0.22 |
| CodonRoBERTa-large-v1 | 312M | 4.01 | 0.02 |
| CodonRoBERTa-large-v2 | 312M | 4.10 | 0.40 |
RoBERTa 家族全面勝出。對於生產用途,CodonRoBERTa-large-v2 是明確的首選:它具有最強的生物學一致性(CAI 0.404),同時保持了競爭力的困惑度。對於計算資源有限的團隊,CodonRoBERTa-base 以減少 3.4 倍的參數提供了幾乎相同的困惑度。ModernBERT 表現不佳,我們將其歸因於其 NLP 預訓練權重干擾了密碼子模式的學習。
4. 擴展到多物種
單物種密碼子優化雖然有用,但有其局限性。每個生物體都有經過數百萬年進化形成的獨特密碼子使用偏好。大腸桿菌偏好的密碼子與人類細胞不同,後者又與酵母不同。僅在大腸桿菌數據上訓練的模型無法為人類表達產生最優密碼子。
行業標準是為每個生物體使用單獨的 CAI 表。我們想要更好的東西:一個能理解跨生物體密碼子使用、能根據目標物種進行條件化,並能將知識從數據豐富的生物體(如人類,有 14.5 萬條標註 CDS)轉移到數據貧乏的生物體(如大腸桿菌,僅 9 千條)的單一模型。在確定 CodonRoBERTa-large-v2 為單物種數據上的最佳架構後,我們構建了這個系統。
數據工程挑戰
組裝多物種密碼子數據集並非下載幾個基因組那麼簡單。每個生物體存在於不同的 NCBI RefSeq 組裝中,具有不同的標註質量、CDS 邊界和序列慣例。我們編寫了一個自動化流水線,從 25 個生物體下載 CDS 序列,對其進行驗證(檢查正確的起始/終止密碼子、長度是否為 3 的倍數、無內部終止碼),為每個序列貼上物種標記,並按物種分層劃分為訓練/測試集。
最終數據集涵蓋了生物技術相關的三個領域:
- 細菌(11 個物種): 大腸桿菌(E. coli)、枯草芽孢桿菌(B. subtilis)、結核桿菌(M. tuberculosis)等。
- 真核生物(10 個物種): 人類(H. sapiens)、小鼠(M. musculus)、斑馬魚(D. rerio)等。
- 工業宿主(4 個物種): 酵母(S. cerevisiae)、CHO 細胞(C. griseus)、巴斯德畢赤酵母(P. pastoris)等。
這種覆蓋是深思熟慮的:細菌是重組蛋白生產的主力,酵母主導工業生物製造,而哺乳動物細胞(尤其是 CHO 和人類細胞)則是治療性蛋白質和 mRNA 疫苗所必需的。這 25 個生物體共同涵蓋了絕大多數現實世界的密碼子優化案例。
分詞創新
一個看到來自 25 個不同生物體序列的模型需要知道它正在觀察哪個生物體。我們通過在 69 個密碼子詞彙表中增加 25 個物種標記(species tokens)解決了這個問題,創建了一個 94 標記系統。每個序列前都冠以其物種標記(例如 [HUMAN]、[ECOLI]、[YEAST]),因此模型在單個共享架構中學習物種特異性的密碼子偏好。
這種設計有三個優點。首先,它實現了物種條件化生成:同一個模型根據前綴物種標記產生人類最優或大腸桿菌最優的密碼子。其次,它實現了跨物種遷移學習:通用的密碼子模式(如避免某些二核苷酸,或在富含 GC 的基因組中偏好富含 GC 的密碼子)在所有物種中共享,而物種特異性偏好則通過物種標記捕捉。第三,94 標記詞彙表與我們的 69 標記單物種模型向後兼容。
訓練通用基礎模型
通用基礎模型是一個 3.119 億參數的 RoBERTa-large,架構與我們的單物種 v2 相同,但擴展了 94 標記詞彙表。它在 4 塊 A100 GPU 上使用完整的 36.2 萬條序列多物種數據集訓練了 48 小時。
結果:
- 多物種測試困惑度: 24.9
24.9 的測試困惑度高於我們單物種模型的 4.01,這看起來像是退步。其實不然。多物種模型必須為 25 個不同的生物體學習截然不同的密碼子偏好,每個生物體都有自己的進化史和 tRNA 池。像結核桿菌(65% GC 含量)這樣的細菌使用的密碼子與人類細胞(41% GC)完全不同。模型正在解決一個從根本上更難的問題,困惑度反映了這一點。重要的是物種特異性的微調是否能恢復性能,事實證明確實可以。
物種特異性微調
通用基礎模型是一個「全才」。對於生產用途,「專才」表現更好。OpenMed 的微調策略從多物種檢查點開始,以較低的學習率(2e-5 對 5e-5)在單個物種上進一步訓練,在保留跨物種知識的同時,使模型的預測專門化於某一生物體。
綜合結果:
| 模型 | 訓練序列 | 困惑度 (↓) |
|---|---|---|
| 通用多物種基礎模型 | 362,000 | 24.9 |
| HUMAN 專家模型 | 131,000 | 24.3 |
| ECOLI 專家模型 | 8,547 | 24.7 |
| CHO 專家模型 | 42,500 | 25.5 |
這裡最重要的結果是 HUMAN 模型:困惑度為 24.3,它是唯一優於通用基礎模型的專家模型,成為我們治療性 mRNA 應用的生產模型。但從研究角度來看,ECOLI 結果可能更有趣。儘管只有 8,547 條訓練序列(人類為 13.1 萬條),大腸桿菌專家模型仍比多物種基礎模型有所改進。這驗證了遷移學習假設:先在 25 個物種上訓練,然後在小型物種特異性數據集上微調,效果優於僅在小型數據集上訓練。對於許多標註 CDS 數據稀缺的生物體,這種方法為實現合理的密碼子優化打開了大門。
完整的模型套件
經過 55 小時的訓練,我們擁有了:
- 通用模型:
OpenMed/CodonRoBERTa-large-multispecies - 物種特異性專家模型: 人類、大腸桿菌、CHO 細胞。
- 單物種模型: 原始的大腸桿菌 v2 和基礎模型。
所有模型都將在 Hugging Face 的 OpenMed 組織下發布。
5. 端到端工作流

在第一部分中,我們將蛋白質工程循環描述為預測、設計和優化的週期。以下是使用 OpenMed 流水線在實踐中的樣子。每個步驟都為下一步提供輸入,整個計算階段在單個 GPU 上一個下午即可完成。
考慮一個具體場景:工程化一個更穩定的治療性酶版本,該酶在血液中降解太快。
- 摺疊 (ESMFold): 預測起始序列的結構,以了解其活性位點並識別可能不穩定的區域。
- 設計 (ProteinMPNN): 保持活性位點固定,但重新設計支架以提高穩定性。ProteinMPNN 生成 100 個多樣化的候選序列。
- 驗證 (ESMFold): 使用 ESMFold 重新摺疊所有 100 個候選序列,以確認它們仍採用正確的形狀。篩選高置信度 (pLDDT > 80) 且拓撲結構正確的序列。
- 優化 (CodonRoBERTa): 獲取最佳氨基酸序列,並使用
CodonRoBERTa-large-human為人類表達生成最優 DNA 序列。 - 合成與測試: 向合成公司訂購 DNA,將其克隆到表達載體中,並在實驗室中測試表達和活性。
這個循環取代了曾經需要數月反覆濕實驗試錯的過程。研究人員帶著 5-10 個經過計算驗證的候選方案進入實驗台,而不是僅憑一兩個直覺猜測。成功率提高了,成本降低了,設計週期從數月壓縮到數天。
6. 現狀與未來展望
競爭格局
OpenMed 並非孤軍奮戰。最近有兩個模型進一步推動了密碼子/mRNA 建模的前沿:
- mRNABERT (2025): 86M 參數的 BERT,採用雙分詞方案。在 1800 萬條序列上訓練。
- NUWA (2026): 三個領域特定的 RoBERTa 編碼器。在 1.15 億條序列上訓練。
這兩個模型的訓練數據量是 OpenMed 的 50-300 倍。這是主要的差距,我們對此保持透明。
但以下是 OpenMed 提供而它們沒有的特點:
- 物種條件化單模型: 我們將 25 個物種標記放入一個詞彙表中,訓練一個可以針對任何生物體進行提示的單一模型。參數效率更高,更靈活。
- 低資源生物體的遷移學習: 我們證明了在僅 8.5k 條大腸桿菌序列上微調多物種基礎模型是有效的。
- 全開源流水線: ESMFold + ProteinMPNN + CodonRoBERTa,端到端,包含訓練代碼、配置、評估腳本和模型權重。全部採用 Apache 2.0 協議。
進行中:CodonJEPA
OpenMed 正在運行一種截然不同方法的概念驗證:用於密碼子序列的聯合嵌入預測架構(JEPA)。
標準 MLM 預測被遮蓋的標記。JEPA 則預測被遮蓋的嵌入(embeddings)。假設是:如果模型被迫在嵌入空間而非標記空間進行預測,它應該學會同義密碼子(不同的 DNA,相同的氨基酸)在功能上是等效的。
早期結果顯示,JEPA 嵌入對於僅在同義密碼子選擇上不同的序列具有極高的餘弦相似度(99.97%),而 MLM 嵌入則有顯著偏移。這意味著 JEPA 確實學到了同義密碼子是可以互換的。
路線圖
- CodonRoBERTa (擴展): 在 1000 萬條序列上訓練,增加更多物種標記。
- CodonJEPA (修復與擴展): 解決維度崩潰問題,並擴展到多物種。
- 流水線: 整合用於序列設計的流匹配(Flow Matching)模型。
7. 參考文獻
OpenMed 的工作建立在 Meta AI、華盛頓大學 Baker 實驗室、DeepMind 以及廣大開源計算生物學社區的基礎研究之上。
(參考文獻列表詳見英文原文)
模型與數據:即將發布
本博文中描述的所有模型、訓練代碼和多物種數據集都將在 Hugging Face 的 OpenMed 組織下以 Apache 2.0 / MIT 許可證公開發布。
機器學習工程師的蛋白質 AI 指南:從蛋白質到優化 DNA | 2026 年 3 月
閱讀第一部分:AlphaFold 革命,涵蓋蛋白質 AI 的全景。
有問題或合作想法?請在 Hugging Face 上聯繫我們或在模型頁面開啟討論。