一家極力避免「作弊」的機器學習藥物發現新創公司

Lesswrong·4 個月前

機器學習藥物研發領域充斥著透過學習數據集隱藏偏差而非真實生物學來「作弊」的模型，而 Leash Bio 正致力於解決這個問題。我想強調這家新創公司如何展現出近乎病態的堅持，確保他們的模型在巨大的困難與行業誘因下，依然能學習到正確的底層科學。

前言

下文我將描述的是，在機器學習輔助的小分子設計領域工作，其初步的粗略概況。

想像你被指派去解決以下機器學習問題：

你面前有 1160 億個顏色、質地、形狀和大小各異的球。你的任務是預測哪些球會黏在魔鬼氈條上。為了幫助你開始，你得到了一個包含 1000 萬個已經測試過的球的訓練集；哪些黏住了，哪些沒有。你的工作是預測剩下的球。你盡了最大努力，在 80% 的 (X, Y) 標籤上訓練了一個非常大的 Transformer，並發現你在預留的 20% 驗證集上達到了 0.76 的 AUC。這還算不錯，特別是考慮到你只能接觸到所有球總空間的 0.008%。但是，既然你是一位優秀的假設科學家，你會進一步研究你在哪些球上表現良好，哪些表現不佳。你沒有立即發現任何驚喜；誤差在顏色、質地、形狀和大小上基本是均勻分布的，而這些都是你預期數據集中會存在的變化軸。但或許你是一位真正優秀的假設科學家，你決定為了確保準確性，需要請來世界上頂尖的球體魔鬼氈研究員來聽聽他們的看法。你照做了。他們抵達後，看了一眼你的結果，便放聲大笑。「怎麼了，」你結結巴巴地問，「有什麼好笑的？」。在淚水與抽搐之間，研究員好不容易脫口而出：「你這笨蛋！你這徹頭徹尾的白痴！你訓練集和測試集中的幾乎所有球都是在 1987 年到 2004 年之間製造的，使用的是 2005 年《廣州聚合物標準化協議》之後就逐步淘汰的工藝！你的球體魔鬼氈模型根本不是什麼球體魔鬼氈模型，而是一個高度複雜的《廣州聚合物標準化協議》合規檢測器！」研究員癱倒在椅子上，仍在喘氣。

事實上，這個假設的情況比現實情況還要簡單，因為現存的小分子數量比 1160 億個球還要多出好幾個數量級，而且現存的魔鬼氈條——結合蛋白——也有數萬種，每一種都有其獨特的偏好。

鑑於這種情況，這個領域存在相當多的作弊行為。其中大部分是無意的，甚至可能是不可避免的，說實話，很難不對這裡的研究人員感到至少一些同情。試圖解決一個你不知道的變化軸遠遠超過你知道的變化軸的問題，這在某種程度上幾乎是宇宙級的不公平，這使得你出錯的可能空間實際上是無限的。我們能責怪這些人假裝他們等同於合規檢測機器的東西實際上對某些事情有用嗎？

嗯，是的，但我們也應該理解，激勵機制並非為了謹慎、深入思考以及努力確保模型做了「正確的事」而設計的。即使在私營部門也是如此，這些模型的最終效用時間表還在遙遠的地平線上，反饋週期是如此之長，以至於當有人發現你的模型秘密地是一個《廣州協議》檢測器時，對任何相關人員來說都不會產生實質性的後果。

這就是為什麼我認為，將聚光燈投向那些儘管處境艱難仍試圖做正確事情的人是很重要的。

這篇文章就是我試圖凸顯其中一個團體：Leash Bio。

Leash Bio 是一家總部位於猶他州、約有 12 人的新創公司，由兩位前 Recursion Pharmaceutical 的員工 Ian Quigley 和 Andrew Blevins 於 2021 年創立。我通常的生物技術新創公司文章是關於那些擁有奇怪或特別前衛科學論點的地方，所以我會花很長時間關注他們工作的細節、哪裡可能有巨大回報，以及未來的最大風險。

我在這裡不會這樣做，因為 Leash Bio 實際上擁有一個非常成熟的科學論點（建立小分子與蛋白質相互作用的大型數據集並在其上訓練模型）和一個非常成熟的經濟論點（使用訓練好的模型來設計藥物）。這裡顯然有一些價值，至少在任何機器學習用於小分子開發的方案具有價值的範圍內。還有一些外部驗證：最近與 Monte Rosa Therapeutics 合作開發針對新靶點的結合劑。

事實上，Leash 最獨特的地方幾乎完全在於，儘管這很難做到，但他們有一種近乎病態的渴望，要確保他們的模型正在學習正確的東西。他們從這條研究路線中產生了許多有趣的產物，我認為其中許多應該得到更多的關注。這篇文章將深入探討其中的幾個。如果你好奇想閱讀更多關於他們研究的內容，他們也有自己迷人的部落格。

Leash 的一些研究

BELKA 的結果

你可能還記得大約一年前，在 Pat Walters（他是「小分子機器學習領域的許多人都在無意中作弊」觀點的主要倡導者之一）與 DiffDock（一個非常著名的基於機器學習的小分子對接模型）的作者之間發生的一段有趣的紛爭。

這場紛爭最初是由 Pat 發表的論文《基於深度學習的對接方法：與傳統對接工作流程的公平比較》引起的，該論文聲稱發現了 DiffDock 訓練/測試集劃分的嚴重缺陷。DiffDock 論文的作者之一 Gabriel Corso 在這裡回應了這篇論文，基本上是說「是的，我們已經知道了，這就是為什麼我們發布了一篇直接解決這些問題的後續論文」。在經過多次來回評論後，這段插曲大多以在 Pat 的原始論文中附加這一段話而告終：

此處報告的分析是基於原始的 DiffDock 報告 [1]，其性能數據由該報告的作者直接提供，與發表的圖表完全對應。隨後，在 2024 年 2 月，DiffDock 團隊發布了一個新的基準測試 (DockGen) 和一個新的 DiffDock 版本 (DiffDock-L) [21]。這項工作晚於我們的分析，在我們最初報告時，我們並不知道這項工作，而我們報告的發布在分析完成後有所延遲。

我想，這算是圓滿結束了。

但訓練/測試集的劃分到底有什麼大不了的？

簡單來說：原始的 DiffDock 論文在 2019 年之前的蛋白質-配體複合物上進行訓練，並在 2019 年之後的蛋白質-配體複合物上進行測試。這可能不至於太糟糕，但你可以想像這其中的一種失敗模式是，結合域的化學組成存在大量的保守性，使得模型更傾向於記住結合口袋狀的殘基，而不是試圖學習對接的實際物理學。因此，當面對一個全新的結合口袋時，它就會失敗。事實也確實如此。

在後續的 DiffDock-L 論文中，作者轉向了一個基準測試，確保具有相同蛋白質結合域的蛋白質要麼僅在訓練集中，要麼僅在測試數據集中。性能下降了，但生成的模型能夠對更廣泛的蛋白質展現出更好的多樣性。

太棒了！科學在發揮作用。但房間裡還有一個未被提及的大象：化學多樣性呢？DiffDock-L 可能很好地推廣到未見過的蛋白質結合口袋，但它在結構上與其訓練配體非常不同的配體上表現如何？這對 DiffDock 來說並不是一個難題，因為事實證明答案是「令人驚訝地，可以」。來自一篇研究該主題的論文：

基於擴散的方法表現出混合的行為。SurfDock 在 Astex 上隨著配體相似度的降低表現出下降的性能，但在 PoseBusters 和 DockGen 上卻出人意料地有所提高，這表明在更複雜的情況下對配體新穎性具有韌性。其他基於擴散和所有基於回歸的深度學習方法在 Astex 和 PoseBusters 上表現出下降的性能，但在 DockGen 上保持穩定——甚至略有提高——這可能暗示不熟悉的口袋，而非配體，構成了更大的泛化障礙。

但對接並不是大問題，真的不是。

蛋白質-配體複合物預測的聖杯是預測親和力；不僅是小分子結合在哪裡，還有結合得有多緊。而在這裡，事實證明，在模型能做得多好這件事上，極其容易誤導自己。在 2025 年 10 月《自然·機器智能》一篇題為《解決數據偏差提高結合親和力預測的泛化能力》的論文中，他們這樣說道：

[結合親和力模型的] 基準測試與現實世界性能之間的巨大差距，歸因於用於設計這些評分函數的基礎訓練和評估程序。通常，這些模型是在 PDBbind 數據庫中訓練的，並使用評分函數比較評估 (CASF) 基準數據集來評估其泛化能力。然而，多項研究報告稱 PDBbind 與 CASF 基準之間存在高度相似性。由於這種相似性，CASF 上的性能高估了在 PDBbind 上訓練的模型的泛化能力。令人震驚的是，其中一些模型在從輸入數據中省略所有蛋白質或配體信息後，在 CASF 數據集上的表現甚至相當出色。這表明這些模型在 CASF 基準上報告的令人印象深刻的性能並非基於對蛋白質-配體相互作用的理解。相反，訓練和測試複合物之間結構相似性的記憶和利用似乎是驅動這些模型觀察到的基準性能的主要因素。

真是個難題！

現在，這篇論文繼續從 PDB 中提出了它自己的劃分方式...

— Lesswrong

你的個人知識庫

一家極力避免「作弊」的機器學習藥物發現新創公司