Deep learning for single-cell sequencing: a microscope to see the diversity of cells

The Gradient·超過 2 年前

On the the pivotal role that Deep Learning has played as a key enabler for advancing single-cell sequencing technologies.

每個生物的歷史都寫在其基因組中，基因組以 DNA 的形式儲存，並存在於身體的幾乎每個細胞中。沒有兩個細胞是完全相同的，即使它們擁有相同的 DNA 和細胞類型，它們在控制 DNA 如何被細胞表達的調節因子上仍有所不同。人類基因組由分佈在 23 條染色體上的 30 億個鹼基對組成。在這浩瀚的遺傳密碼中，大約有 20,000 到 25,000 個基因，構成了蛋白質編碼 DNA，約佔總基因組的 1% [1]。為了探索我們體內複雜系統的運作，特別是這一小部分編碼 DNA，精確的測序方法是必要的，而單細胞測序（sc-seq）技術正好符合這一目的。

2013 年，《自然》（Nature）雜誌將單細胞 RNA 測序評選為年度方法 [2]（圖 3），強調了該方法在通過單個細胞層面的 DNA 和 RNA 測序來探索細胞異質性的重要性。隨後，湧現了大量用於分析單細胞 RNA 測序數據的工具。例如，scRNA-tools 數據庫自 2016 年以來一直在彙編用於分析單細胞 RNA 數據的軟件，到 2021 年，該數據庫已包含超過 1000 種工具 [3]。在這些工具中，許多涉及利用深度學習技術的方法，這將是本文的重點——我們將探討深度學習在推動單細胞測序技術發展中所扮演的關鍵推手角色。

背景

細胞中從 DNA 到蛋白質的遺傳信息流

讓我們首先了解一下細胞和序列究竟是什麼。細胞是我們身體的基本單位，也是理解我們身體在健康狀態下如何運作，以及分子功能障礙如何導致疾病的關鍵。我們的身體由數萬億個細胞組成，幾乎每個細胞都包含三個遺傳信息層：DNA、RNA 和蛋白質。DNA 是一個長分子，包含使每個人獨一無二的遺傳密碼。就像源代碼一樣，它包含了幾條說明，顯示如何製造我們體內的每種蛋白質。這些蛋白質是細胞的勞動力，執行細胞生命所需的幾乎每一項任務。例如，催化細胞內化學反應的酶，以及在細胞分裂期間促進 DNA 複製的 DNA 聚合酶，都是蛋白質。細胞通過兩個步驟合成蛋白質：轉錄和翻譯（圖 1），這被稱為基因表達。DNA 首先被轉錄成 RNA，然後 RNA 被翻譯成蛋白質。我們可以將 RNA 視為 DNA 和蛋白質之間的信使。

圖 1. 生物學的中心法則

雖然我們身體的細胞共享相同的 DNA，但它們的生物活性各不相同。例如，免疫細胞和心臟細胞之間的區別是由這些細胞中被激活或去激活的基因決定的。通常，當一個基因被激活時，它會導致產生更多的 RNA 副本，從而增加蛋白質產量。因此，由於細胞類型根據合成的 RNA/蛋白質分子的數量和類型而有所不同，在單細胞水平上評估這些分子的豐度變得非常有趣。這將使我們能夠研究每個細胞內 DNA 的行為，並獲得我們身體各個部分的高分辨率視角。

一般來說，所有單細胞測序技術都可以分為三個主要步驟：

從感興趣的組織中分離單個細胞，並從每個分離的細胞中提取遺傳物質
擴增每個分離細胞的遺傳物質並製備文庫
使用二代測序儀對文庫進行測序並進行數據分析

在了解了細胞生物學和單細胞測序技術的複雜步驟後，一個關鍵問題出現了：單細胞測序數據是如何以數字方式表示的？

單細胞測序數據的結構

單細胞測序數據的結構採用矩陣的形式（圖 2），其中每一行對應一個已測序並標註有唯一條形碼（barcode）的細胞。行數等於實驗中分析的細胞總數。另一方面，每一列對應一個特定的基因。基因是基因組的功能單位，編碼合成蛋白質或其他功能分子的指令。在 scRNA-seq 數據的情況下，矩陣中的數值條目代表單個細胞中基因的表達水平。這些值表示特定細胞中每個基因產生的 RNA 量，從而提供對不同細胞內基因活性的洞察。

圖 2. 單細胞測序數據架構圖

單細胞測序概述

150 多年來，生物學家一直想識別人類體內的所有細胞類型，並根據對其特性的準確描述將其分類為不同的類型。人類細胞圖譜計劃（HCAP）是與人類基因組計劃 [4] 相當的遺傳學項目，是一項繪製人體所有細胞地圖的國際合作努力。「我們可以將人類細胞圖譜概念化為一張地圖，努力連貫且系統地描繪人體。就像 Google 地圖允許我們放大以更仔細地檢查複雜細節一樣，人類細胞圖譜提供了對空間信息、內部屬性，甚至元素之間關係的洞察」，Broad 研究所（MIT 和哈佛大學）的計算與系統生物學家、Genentech 研究部執行副總裁兼負責人 Aviv Regev 解釋道。

這一類比與單細胞測序更廣泛的影響完美契合，因為它允許分析單個細胞而不是群體（bulk）。這項技術在解決與發育過程相關的複雜生物學查詢，以及理解各種治療條件或疾病狀態下異質的細胞或遺傳變化方面被證明是無價的。此外，它還有助於識別給定細胞群中的新型細胞類型。2009 年首篇單細胞 RNA 測序（scRNA-seq）論文的發表 [5]，隨後在 2013 年被指定為「年度方法」[2]，標誌著致力於揭示單細胞轉錄組複雜性的實驗和計算技術大規模發展的開端。

隨著技術格局的演變，敘事轉向了單細胞研究的進步，特別是早期由於研究複雜細胞群的成本效益而專注於單細胞 RNA 測序（scRNA-seq）。「在某些方面，RNA 一直是最容易測量的東西之一，」紐約基因組中心（NYGC）的研究員 Satija 說 [6]。然而，單細胞技術的快速發展開啟了一個充滿可能性的新時代——多模態單細胞數據整合。這項被《自然》雜誌評為「2019 年度方法」[7]（圖 3）的方法，允許在同一個細胞內測量不同的細胞模態，包括基因組、表觀基因組和蛋白質組。多重信息的疊加為細胞身份提供了強大的洞察力，也對有效建模和結合多模態測量產生的數據集提出了挑戰。這一整合挑戰隨著多視角學習（Multi-view learning）方法 [8] 的引入而得到解決，該方法探索了跨模態的共同變異。這種結合了深度學習技術的複雜方法，在各個領域，特別是在生物學和生物醫學領域，展示了相關成果。

在這些進步中，單細胞 RNA 測序的一個持久局限性浮現出一個獨特的挑戰——在通過分離細胞原始位置進行轉錄組分析的過程中，空間信息會丟失。空間解析轉錄組學（SRT）作為一個關鍵解決方案出現 [9]，通過在研究複雜生物系統期間保留空間細節來應對這一挑戰。空間解析轉錄組學被認可為 2020 年度方法，鞏固了其作為增進我們對複雜生物系統理解的關鍵解決方案的地位。

圖 3. 單細胞測序隨時間的演變

在探索了單細胞測序的全景之後，現在讓我們深入探討深度學習在單細胞測序背景下的作用。

單細胞測序中的深度學習

深度學習越來越多地應用於單細胞分析，因為它具有處理單細胞測序數據複雜性的能力。相比之下，傳統的機器學習方法需要投入大量精力來開發特徵工程策略，通常由領域專家設計。然而，深度學習方法能夠自主地從單細胞測序數據中捕捉相關特徵，解決單細胞測序實驗之間的異質性，以及此類數據中相關的噪聲和稀疏性。以下是深度學習應用於單細胞測序的三個關鍵原因：

高維數據：單細胞測序產生高維數據，每個細胞測量數千個基因及其表達水平。深度學習模型擅長捕捉這些數據中複雜的關係和模式，這對傳統統計方法來說可能具有挑戰性。
非線性：單細胞基因表達數據的特徵在於基因表達與細胞間異質性之間固有的非線性。傳統統計方法在捕捉單細胞基因表達數據中存在的非線性關係時遇到困難。相比之下，深度學習模型具有靈活性，能夠學習複雜的非線性映射。
異質性：單細胞數據通常以具有不同基因表達譜的多樣化細胞群為特徵，呈現出複雜的景觀。深度學習模型在識別、聚類和表徵這些不同的細胞類型或亞群方面發揮著至關重要的作用，從而促進對樣本內細胞異質性的更深層次理解。

在我們探討了在單細胞測序數據中使用深度學習的原因後，這引出了一個問題：在 sc-seq 數據分析中經常使用哪些深度學習架構？

自動編碼器（Autoencoders）背景

在各種深度學習架構（如 GAN 和 RNN）中，自動編碼器（AEs）脫穎而出，成為解碼單細胞測序數據複雜性時特別依賴的方法。它被廣泛用於降維，同時保留單細胞測序數據中固有的異質性。通過在自動編碼器生成的降維空間中對細胞進行聚類，研究人員可以有效地識別和表徵不同的細胞類型或亞群。這種方法增強了我們辨別和分析單細胞數據集中多樣化細胞成分的能力。與主成分分析（PCA）等非深度學習模型（PCA 是 Seurat [10] 等成熟 scRNA-seq 數據分析軟件的組成部分）相比，自動編碼器的獨特之處在於能夠發現非線性流形。雖然 PCA 受限於線性變換，但自動編碼器捕捉複雜非線性映射的靈活性使其成為發現嵌入單細胞基因組學中細微關係的高級方法。

為了減輕與自動編碼器相關的過擬合挑戰，研究人員實施了幾種針對自動編碼器結構的增強功能，專門為 sc-seq 數據背景提供優勢。在 sc-seq 數據背景下經常使用的一個顯著改編是去噪自動編碼器（DAEs），它通過向初始網絡層引入噪聲來增強自動編碼器的重建能力。這涉及隨機將其某些單元轉換為零。然後，去噪自動編碼器從這個故意損壞的版本中重建輸入，使網絡能夠捕捉更多相關特徵，並防止其僅僅記住輸入（過擬合）。這種改進顯著增強了模型對數據噪聲的韌性，從而提升了從 sc-seq 數據衍生的樣本低維表示（即瓶頸層）的質量。

在 sc-seq 數據分析中頻繁使用的自動編碼器的第三種變體是變分自動編碼器（VAEs），例如 scGen [19]、scVI [14]、scANVI [28] 等模型。VAEs 作為一種生成模型，學習數據的潛在表示分佈。數據不是被編碼成 p 維潛在變量的向量，而是被編碼成兩個大小為 p 的向量：均值向量 η 和標準差向量 σ。VAEs 在編碼過程中引入了概率元素，促進了合成單細胞數據的生成，並提供了對細胞群內多樣性的洞察。這種細微的方法為單細胞基因組學的探索增添了另一層複雜性和豐富性。

深度學習在 sc-seq 數據分析中的應用

本節概述了深度學習在改進 sc-seq 數據分析各個階段的主要應用，強調了其在推進該過程關鍵方面的有效性。

scRNA-seq 數據插補與去噪

單細胞 RNA 測序（scRNA-seq）數據面臨著固有的挑戰，其中「丟失事件」（dropout events）是一個突出的問題，會導致嚴重的問題——造成基因表達矩陣內的稀疏性，通常以大量的零值為特徵。這種稀疏性顯著影響了下游的生物信息學分析。許多零值是由於測序技術的缺陷人為產生的，包括基因表達不足、捕獲率低、測序深度或其他技術因素等問題。因此，觀察到的零值並不能準確反映真實的潛在表達水平。因此，並非 scRNA-seq 數據中的所有零都可以被視為單純的缺失值，這偏離了插補缺失數據值的傳統統計方法。鑑於真實零計數和虛假零計數之間複雜的區別，具有預定義缺失值的傳統插補方法對於 scRNA-seq 數據可能顯得不足。例如，像均值插補（Mean Imputation）這樣的經典插補方法，可能涉及用該基因在所有細胞中的平均表達水平來替換這些零值。然而，這種方法存在過度簡化 scRNA-seq 數據中丟失事件引入的複雜性的風險，可能導致有偏見的解釋。

scRNA-seq 數據插補方法可分為兩類：基於深度學習的插補方法和非深度學習插補方法。非深度學習插補算法涉及擬合統計概率模型或利用表達矩陣進行平滑和擴散。這種簡單性使其對某些類型的樣本有效。例如，Wagner 等人 [11] 利用 k-最近鄰（KNN）方法，識別細胞間的最近鄰，並彙總基因特異性的唯一分子標識符（UMI）計數來插補基因表達矩陣。相比之下，Huang 等人 [12] 提出了 SVAER 算法，利用基因與基因之間的關係來插補基因表達矩陣。對於較大的數據集（包含數萬個或更多）、高維、稀疏且複雜的 scRNA-seq 數據，傳統計算方法面臨困難，通常使得使用這些方法進行分析變得困難且不可行。因此，許多研究人員轉向設計基於深度學習的方法來應對這些挑戰。

大多數用於插補丟失事件的深度學習算法都基於自動編碼器（AEs）。例如，在 2018 年，Eraslan 等人 [13] 引入了深度計數自動編碼器（DCA）。DCA 利用深度自動編碼器架構來解決單細胞 RNA 測序（scRNA-seq）數據中的丟失事件。它在解碼器中加入了一個概率層來模擬丟失過程。這個概率層適應了與丟失事件相關的不確定性，使模型能夠生成可能插補值的分佈。為了捕捉 scRNA-seq 中計數數據的特徵，DCA 將觀察到的計數建模為源自負二項分佈。

單細胞變分推理（scVI）是 Lopez 等人 [14] 引入的另一種深度學習算法。scVI 是一種概率變分自動編碼器（VAE），它結合了深度學習和概率建模來捕捉 scRNA-seq 數據的潛在結構。scVI 可用於插補、去噪以及與 scRNA-seq 數據分析相關的其他各種任務。與 DCA 模型相比，scVI 在解碼器部分採用零膨脹負二項（ZINB）分佈，為每個細胞中的每個基因生成可能計數的分佈。零膨脹負二項（ZINB）分佈允許對基因表達為零的概率（模擬丟失事件）以及正值的分佈（模擬非零計數）進行建模。

此外，另一項研究通過在其模型中引入循環網絡層來解決 scRNA-seq 數據插補挑戰，該模型被稱為 scScope [15]。這種新穎的架構對輸入 scRNA-seq 數據的零值條目迭代執行插補。scScope 設計的靈活性允許通過選擇的循環步數（T）迭代改進插補輸出。值得注意的是，將 scScope 的時間循環減少到 1（即 T = 1）會將模型轉換為傳統的自動編碼器（AE）。由於 scScope 本質上是傳統 AE 的修改，其運行時間與其他基於 AE 的模型相當。

重要的是要注意，深度學習在 scRNA-seq 數據插補和去噪中的應用特別有利，因為它能夠捕捉基因之間的非線性關係。這與標準的線性方法形成對比，使得深度學習在單細胞基因組學背景下更擅長提供信息化且準確的插補策略。

批次效應消除

單細胞數據通常是從多樣化的實驗中彙總而來的，這些實驗在實驗實驗室、方案、樣本組成甚至技術平台方面各不相同。這些差異導致數據中出現顯著的變異或批次效應，在數據整合過程中對分析感興趣的生物學變異提出了挑戰。為了應對這一問題，在整合來自不同批次或研究的細胞時，必須通過消除技術方差來校正批次效應。最早出現的批次校正方法是基於線性回歸的線性方法，例如 Limma 包 [16]，它提供了 removeBatchEffect 函數，該函數擬合一個考慮批次及其對基因表達影響的線性模型。在擬合模型後，它將與每個批次相關的係數設置為零，從而有效地消除了它們的影響。另一種稱為 ComBat [17] 的方法執行類似的操作，但增加了一個額外的步驟來優化過程，通過使用一種稱為經驗貝葉斯收縮（empirical Bayes shrinkage）的技術使校正更加準確。

然而，批次效應可能是高度非線性的，這使得在保留關鍵生物學變異的同時正確對齊不同數據集變得困難。2018 年，Haghverdi 等人引入了互最近鄰（MNN）算法，以識別單細胞數據中來自不同批次的細胞對 [18]。這些識別出的互最近鄰有助於估計批次之間的批次效應。通過應用這種校正，基因表達值被調整以補償估計的批次效應，使它們對齊得更緊密，並減少不同批次引入的差異。對於具有高度非線性批次效應的大型單細胞數據集，傳統方法可能效果不佳，促使研究人員探索神經網絡的應用以改進批次校正。

採用深度學習進行批次校正的先驅模型之一是 scGen 模型。由 Lotfollahi 等人開發的 scGen [19] 利用了變分自動編碼器（VAE）架構。這涉及在參考數據集上預訓練 VAE 模型，以調整真實的單細胞數據並減輕批次效應。最初，VAE 被訓練以捕捉參考數據集細胞內的潛在特徵。隨後，這個訓練好的 VAE 被應用於實際數據，為每個細胞產生潛在表示。基因表達譜的調整隨後基於對齊這些潛在表示，以減少批次效應並協調不同實驗條件下的譜圖。

圖 4. scGen 消除批次效應 [19]。a, 4 個技術多樣的胰腺數據集及其對應批次和細胞類型的 UMAP 可視化。b, 經 scGen 校正後的數據混合了來自不同研究的共享細胞類型，同時保留了細胞的生物學方差。

另一方面，Zou 等人引入了 DeepMNN [20]，它採用殘差神經網絡和互最近鄰（MNN）算法進行 scRNA-seq 數據批次校正。最初，在主成分分析（PCA）子空間中跨批次識別 MNN 對。隨後，使用兩個堆疊的殘差塊構建批次校正網絡以消除批次效應。DeepMNN 的損失函數由批次損失（基於 PCA 子空間中 MNN 對中細胞之間的距離計算）和加權正則化損失（確保網絡輸出與輸入相似）組成。

大多數現有的 scRNA-seq 方法旨在先消除批次效應，然後對細胞進行聚類，這可能會忽視某些稀有細胞類型。最近，Xiaokang 等人開發了 scDML [21]，這是一個深度度量學習模型，用於消除 scRNA-seq 數據中的批次效應，由初始聚類以及批次內和批次間的最近鄰信息引導。首先，使用基於圖的聚類算法根據基因表達相似性對細胞進行分組，然後應用 KNN 算法識別數據集中每個細胞的 k-最近鄰，並使用 MNN 算法識別互最近鄰，專注於細胞間的互惠關係。為了消除批次效應，採用了深度三元組學習（deep triplet learning），考慮硬三元組（hard triplets）。這有助於學習一個低維嵌入，該嵌入既考慮了原始的高維基因表達，又同時消除了批次效應。

細胞類型標註

單細胞測序中的細胞類型標註涉及根據基因表達譜識別和標記單個細胞的過程，這使研究人員能夠捕捉異質細胞群內的多樣性，並了解組織的細胞組成，以及不同細胞類型在生物過程或疾病中的功能角色。傳統上，研究人員使用手動方法 [22] 來標註細胞亞群。這涉及識別在特定細胞簇中差異表達的基因標誌物或基因特徵。一旦識別出基因標誌物，研究人員就會手動解釋這些標誌物的生物學相關性，以便為簇分配細胞類型標籤。這種傳統的手動標註方法耗時且需要大量人力，尤其是在處理大規模單細胞數據集時。由於手動標註相關的挑戰，研究人員正轉向自動化和簡化細胞標註過程。

細胞類型標註採用兩種主要策略：基於無監督的和基於有監督的。在無監督領域，利用 Scanpy [23] 和 Seurat [10] 等聚類方法，這需要對已建立的細胞標誌物有先驗知識。簇的識別取決於細胞的無監督分組，無需外部參考信息。然而，這種方法的一個缺點是，隨著簇數量的增加和簇標誌物基因的多重選擇，可複製性可能會降低。

相反，基於有監督的策略依賴於在標記數據上訓練的深度學習模型。這些模型在訓練期間辨別基因表達數據中複雜的模式和關係，使它們能夠根據獲得的模式預測未標記數據的細胞類型。例如，聯合整合與區分（JIND）[24] 部署了一種 GAN 風格的深度架構，其中編碼器在分類任務上進行預訓練，避開了對自動編碼器框架的需求。該模型還考慮了批次效應。AutoClass [25] 整合了一個自動編碼器和一個分類器，將輸出重建損失與分類損失相結合，用於細胞標註以及數據插補。此外，植根於 Transformer 框架和卷積神經網絡（CNN）的 TransCluster [26]，利用從基因表達矩陣中提取的特徵進行單細胞標註。

儘管深度神經網絡功能強大，但獲取大量準確且無偏標註的細胞進行訓練仍具有挑戰性，因為在 scRNA-seq 數據中手動檢查標誌物基因是勞動密集型的。作為回應，半監督學習已被槓桿化應用於計算細胞標註。例如，SemiRNet [27] 模型同時使用未標記和有限數量的標記 scRNA-seq 細胞來實現細胞識別。SemiRNet 基於循環卷積神經網絡（RCNN），包含一個共享網絡、一個有監督網絡和一個無監督網絡。此外，使用變分推理的單細胞標註（scANVI）[28] 是 scVI [14] 的半監督變體，它最大化了現有細胞狀態標註的效用。Cell BLAST 是一個基於自動編碼器的生成模型，它利用大規模參考數據庫來學習細胞的非線性低維表示，採用複雜的細胞相似性指標——歸一化投影距離——將查詢細胞映射到特定細胞類型並識別新型細胞類型。

多組學數據整合

最近的研究證明了深度學習模型在解決複雜和多模態生物學挑戰方面的潛力 [29]。在目前提出的算法中，主要是基於深度學習的模型提供了必要的計算適應性，以便有效地建模和整合幾乎任何形式的組學數據，包括基因組學（研究 DNA 序列和遺傳變異）、表觀基因組學（檢查與 DNA 序列無關的基因活性變化，如 DNA 修飾和染色質結構）、轉錄組學（通過 RNA 測序研究 RNA 分子和基因表達）以及蛋白質組學（分析生物體產生的所有蛋白質，包括結構、豐度和修飾）。深度學習架構，包括自動編碼器（AE）和生成對抗網絡（GAN），經常被用於單細胞的多組學整合問題。多組學整合的關鍵問題圍繞著如何有效地在統一的潛在空間中表示多樣化的多組學數據。

早期開發的用於整合多組學單細胞數據的變分自動編碼器（VAE）方法之一被稱為 totalVI [30]。基於 VAE 的 totalVI 模型為有效合併 scRNA-seq 和蛋白質數據提供了解決方案。在該模型中，totalVI 接收包含 scRNA-seq 和蛋白質計數數據的輸入矩陣。具體而言，它將基因表達數據視為從負二項分佈中採樣，而蛋白質數據則被視為從由兩個負二項分佈組成的混合模型中採樣。該模型首先通過其編碼器學習共享的潛在空間表示，然後利用這些表示來重建原始數據，同時考慮到兩種原始數據模態之間的差異。最後，解碼器組件使用共享的潛在表示來估計兩種數據模態底層分佈的參數。

另一方面，Zuo 等人 [31] 引入了 scMVAE，這是一個多模態變分自動編碼器，旨在整合同一個體細胞中的轉錄組和染色質可及性數據。scMVAE 採用兩個獨立的單模態編碼器和兩個單模態解碼器，以有效地對轉錄組和染色質數據進行建模。它通過將三種不同的聯合學習策略與概率高斯混合模型相結合來實現這一點。

圖 5. MULTIGRATE 潛在空間的 UMAP 嵌入，用於結合基因表達和細胞表面蛋白數據的 CITE-seq 數據集 [32]。

最近，Lotfollahi 等人 [32] 引入了一種名為 MULTIGRATE 的無監督深度生成模型，用於多組學數據集的整合。MULTIGRATE 採用多模態變分自動編碼器結構，與 scMVAE 模型有一些相似之處。然而，它提供了額外的通用性，並且能夠整合配對和非配對的單細胞數據。為了增強細胞對齊，損失函數納入了最大平均差異（MMD），懲罰與不同分析相關的點雲之間的任何錯位。通過結合遷移學習，MULTIGRATE 可以將新的多組學查詢數據集映射到參考圖譜中，並對缺失的模態執行插補。

結論

深度學習在單細胞測序中的應用就像一台先進的顯微鏡，揭示了單個細胞內的複雜見解，並對生物系統中細胞的異質性和複雜性提供了深刻的理解。這項尖端技術使科學家能夠探索以前未發現的細胞行為方面。然而，挑戰在於如何在傳統工具和過剩的可用深度學習選項之間做出選擇。工具的景觀非常廣闊，研究人員必須仔細考慮數據類型、複雜性以及手頭具體的生物學問題等因素。導航這一決策過程需要對每種工具相對於研究目標的優勢和局限性進行深思熟慮的評估。

另一方面，在開發用於單細胞 RNA 測序（scRNA-seq）分析的深度學習方法中，一個關鍵需求是穩健的基準測試（benchmarking）。雖然許多研究將深度學習性能與標準方法進行比較，但缺乏跨各種深度學習模型的全面比較。此外，方法通常聲稱基於特定數據集和組織（例如胰腺細胞、免疫細胞）具有優越性，這使得評估特定術語或預處理步驟的必要性變得具有挑戰性。應對這些挑戰需要了解深度學習模型何時失敗及其局限性。識別哪種類型的深度學習方法和模型結構在特定情況下是有益的，對於開發新方法和引導該領域至關重要。

在多組學單細胞整合領域，大多數深度學習方法旨在為所有模態找到一個共享的潛在表示。然而，共享表示學習面臨著諸如噪聲增加、稀疏性以及平衡模態的複雜任務等挑戰。跨機構的固有偏見使泛化變得複雜。儘管不如單模態方法普遍，但將具有獨特細胞群的多樣化模態整合起來至關重要。目標包括跨模態預測表達以及識別處於相似狀態的細胞。儘管取得了進展，但為了提高性能，特別是針對存在於一種技術中而不在另一種技術中的獨特或稀有細胞群，進一步的努力是必不可少的。

作者簡介

Fatima Zahra El Hajji 擁有國家計算機科學與系統分析學院（ENSIAS）的生物信息學碩士學位，隨後在 Piercing Star Technologies 擔任 AI 實習生。目前，她是穆罕默德六世理工大學（UM6P）的博士生，在 Rachid El Fatimy 博士和 Tariq Daouda 博士的指導下工作。她的研究重點是深度學習技術在單細胞測序數據中的應用。

引用

在學術背景或書籍中進行歸因時，請引用本作品為：

Fatima Zahra El Hajji, "Deep learning for single-cell sequencing: a microscope to see the diversity of cells", The Gradient, 2024.

BibTeX 引用：

@article{elhajji2023nar,
author = {El Hajji, Fatima Zahra},
title = {Deep learning for single-cell sequencing: a microscope to see the diversity of cells},
journal = {The Gradient},
year = {2024},
howpublished = {\url{https://thegradient.pub/deep-learning-for-single-cell-sequencing-a-microscope-to-uncover-the-rich-diversity-of-individual-cells},
}

參考文獻

National Human Genome Research Institute (NHGRI) : A Brief Guide to Genomics ,* https://www.genome.gov/about-genomics/fact-sheets/A-Brief-Guide-to-Genomics*
Method of the Year 2013. Nat Methods 11, 1 (2014).* https://doi.org/10.1038/nmeth.2801*
Zappia, L., Theis, F.J. Over 1000 tools reveal trends in the single-cell RNA-seq analysis landscape. Genome Biol 22, 301 (2021).* https://doi.org/10.1186/s13059-021-02519-4*
Collins FS, Fink L. The Human Genome Project. Alcohol Health Res World. 1995;19(3):190-195. PMID: 31798046; PMCID: PMC6875757.
Tang F, Barbacioru C, Wang Y, et al. mRNA-Seq whole-transcriptome analysis of a single cell. Nat Methods. 2009; 6: 377-382.
Eisenstein, M. The secret life of cells. Nat Methods 17, 7–10 (2020). https://doi.org/10.1038/s41592-019-0698-y
Method of the Year 2019: Single-cell multimodal omics. Nat Methods 17, 1 (2020). https://doi.org/10.1038/s41592-019-0703-5
Zhao, Jing et al. “Multi-view learning overview: Recent progress and new challenges.” Inf. Fusion 38 (2017): 43-54.
Zhu, J., Shang, L. & Zhou, X. SRTsim: spatial pattern preserving simulations for spatially resolved transcriptomics. Genome Biol 24, 39 (2023).
Butler, A., Hoffman, P., Smibert, P., Papalexi, E., & Satija, R. (2018). Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nature biotechnology, 36(5), 411-420
Wagner, F., Yan, Y., & Yanai, I. (2018). K-nearest neighbor smoothing for high-throughput single-cell RNA-Seq data. bioRxiv, 217737. Cold Spring Harbor Laboratory. https://doi.org/10.1101/217737
Huang, M., Wang, J., Torre, E. et al. SAVER: gene expression recovery for single-cell RNA sequencing. Nat Methods 15, 539–542 (2018). https://doi.org/10.1038/s41592-018-0033-z
Eraslan G, Simon LM, Mircea M, Mueller NS, Theis FJ. Single-cell RNA-seq denoising using a deep count autoencoder. Nat Commun. 2019 Jan 23;10(1):390. doi: 10.1038/s41467-018-07931-2. PMID: 30674886; PMCID: PMC6344535.
Lopez, R., Regier, J., Cole, M. B., Jordan, M. I.,& Yosef, N. (2018). Deep generative modeling for single-cell transcriptomics. Nature methods, 15(12), 1053-1058.
Y. Deng, F. Bao, Q. Dai, L.F. Wu, S.J. Altschuler Scalable analysis of cell-type composition from single-cell transcriptomics using deep recurrent learning
Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W, Smyth GK. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Res. 2015 Apr 20;43(7):e47. doi: 10.1093/nar/gkv007. Epub 2015 Jan 20. PMID: 25605792; PMCID: PMC4402510.
Johnson W.E. , Li C., Rabinovic A. Adjusting batch effects in microarray expression data using empirical bayes methods. Biostatistics. 2007; 8:118–127.
Haghverdi, L., Lun, A., Morgan, M. et al. Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nat Biotechnol 36, 421–427 (2018). https://doi.org/10.1038/nbt.4091
Lotfollahi, M., Wolf, F. A., & Theis, F. J. (2019). scGen predicts single-cell perturbation responses. Nature methods, 16(8), 715-721.
Zou, B., Zhang, T., Zhou, R., Jiang, X., Yang, H., Jin, X., & Bai, Y. (2021). deepMNN: deep learning-based single-cell RNA sequencing data batch correction using mutual nearest neighbors. Frontiers in Genetics, 1441.
Yu, X., Xu, X., Zhang, J. et al. Batch alignment of single-cell transcriptomics data using deep metric learning. Nat Commun 14, 960 (2023). https://doi.org/10.1038/s41467-023-36635-5
Z.A. Clarke, T.S. Andrews, J. Atif, D. Pouyabahar, B.T. Innes, S.A. MacParland, et al. Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods Nat Protoc, 16 (2021), pp. 2749-2764
Wolf, F., Angerer, P. & Theis, F. SCANPY: large-scale single-cell gene expression data analysis. Genome Biol 19, 15 (2018). https://doi.org/10.1186/s13059-017-1382-0
Mohit Goyal, Guillermo Serrano, Josepmaria Argemi, Ilan Shomorony, Mikel Hernaez, Idoia Ochoa, JIND: joint integration and discrimination for automated single-cell annotation, Bioinformatics, Volume 38, Issue 9, March 2022, Pages 2488–2495, https://doi.org/10.1093/bioinformatics/btac140
H. Li, C.R. Brouwer, W. Luo A universal deep neural network for in-depth cleaning of single-cell RNA-seq data Nat Commun, 13 (2022), p. 1901
Song T, Dai H, Wang S, Wang G, Zhang X, Zhang Y and Jiao L (2022) TransCluster: A Cell-Type Identification Method for single-cell RNA-Seq data using deep learning based on transformer. Front. Genet. 13:1038919. doi: 10.3389/fgene.2022.1038919
Dong X, Chowdhury S, Victor U, Li X, Qian L. Semi-Supervised Deep Learning for Cell Type Identification From Single-Cell Transcriptomic Data. IEEE/ACM Trans Comput Biol Bioinform. 2023 Mar-Apr;20(2):1492-1505. doi: 10.1109/TCBB.2022.3173587. Epub 2023 Apr 3. PMID: 35536811.
Xu, C., Lopez, R., Mehlman, E., Regier, J., Jordan, M. I., & Yosef, N. (2021). Probabilistic harmonization and annotation of single‐cell transcriptomics data with deep generative models. Molecular Systems Biology, 17(1), e9620. https://doi.org/10.15252/msb.20209620
*Tasbiraha Athaya, Rony Chowdhury Ripan, Xiaoman Li, Haiyan Hu, Multimodal deep learning approaches for single-cell multi-omics data integration, Briefings in Bioinformatics, Volume 24, Issue 5, September 2023, bbad313, *https://doi.org/10.1093/bib/bbad313
*Gayoso, A., Lopez, R., Steier, Z., Regier, J., Streets, A., & Yosef, N. (2019). A Joint Model of RNA Expression and Surface Protein Abundance in Single Cells. bioRxiv, 791947. *https://www.biorxiv.org/content/early/2019/10/07/791947.abstract
Chunman Zuo, Luonan Chen. Deep-joint-learning analysis model of single cell transcriptome and open chromatin accessibility data. Briefings in Bioinformatics. 2020.
Lotfollahi, M., Litinetskaya, A., & Theis, F. J. (2022). Multigrate: single-cell multi-omic data integration.bioRxiv.https://www.biorxiv.org/content/early/2022/03/17/2022.03.16.484643

— The Gradient

其他收藏 · 0