7月31日,中國科學院深圳先進技術研究院合成生物學研究所胡政課題組與廈門大學數(shù)學科學學院周達課題組合作,在國際學術期刊Nature Biotechnology(自然生物技術)發(fā)表了題為PhyloVelo enhances transcriptomic velocity field mapping using monotonically expressed genes的研究論文,提出一項新穎的單細胞分化軌跡推斷的算法框架,命名為PhyloVelo。該方法通過聯(lián)合單細胞轉(zhuǎn)錄組數(shù)據(jù)和譜系示蹤數(shù)據(jù),鑒定隨細胞分裂而表達量呈單調(diào)遞增或遞減的基因,即單調(diào)表達基因,并利用演化方法估計單調(diào)基因的RNA轉(zhuǎn)錄變化速度,以構建單細胞轉(zhuǎn)錄組速度場(RNA velocity fields),實現(xiàn)對細胞分化軌跡的高精準推斷。
細胞分化和命運決定是生命的奧秘之一,也是生命科學領域的核心問題,揭示其規(guī)律和機制對于理解生命現(xiàn)象和促進醫(yī)學發(fā)展具有重要意義。然而,準確地追蹤細胞的動態(tài)分化軌跡并非易事,尤其是在疾病等干擾情況下的細胞命運轉(zhuǎn)換過程,存在較大的隨機性和難以預測性。當前,單細胞轉(zhuǎn)錄組測序(scRNA-seq)是研究細胞分化的一種強有力的技術,可以通過分析單個細胞的轉(zhuǎn)錄組狀態(tài)來推斷細胞分化的動態(tài)過程。尤其是基于信使RNA(mRNA)的剪切動力學而發(fā)展起來的RNA速度模型(RNA velocity),可預測單細胞轉(zhuǎn)錄組在“過去”或“未來”時間的狀態(tài),是單細胞軌跡推斷的經(jīng)典算法。然而由于單細胞測序技術與mRNA轉(zhuǎn)錄/剪切動力學的高度復雜性,RNA速度模型在實際應用中常常出現(xiàn)錯誤推斷或不穩(wěn)健的問題。
在本文中,作者提出利用單細胞系統(tǒng)發(fā)育樹的枝長信息代替物理時間,聯(lián)合單細胞轉(zhuǎn)錄組數(shù)據(jù),可以研究基因表達隨著枝長(即時間)的變化規(guī)律,特別是鑒定隨細胞分裂而表達量呈單調(diào)遞增或遞減的基因(即單調(diào)表達基因),其RNA變化速度可以利用分子演化模型進行定量估計,從而構建單細胞轉(zhuǎn)錄組速度場,實現(xiàn)對細胞分化軌跡的高精準推斷(圖1)。
PhyloVelo算法主要分為兩個部分。第一步是單調(diào)表達基因(monotonically expressed gene, MEGs)的識別。利用了單細胞轉(zhuǎn)錄組數(shù)據(jù)和細胞系統(tǒng)發(fā)育樹(cell phylogeny)信息,通過帶漂移的擴散過程模型(diffusion process)和零膨脹的負二項分布(ZINB)來估計每個基因在系統(tǒng)發(fā)育樹上各個時間點的表達水平。然后,利用表達水平估計值和對應系統(tǒng)發(fā)育樹時間的相關性,篩選出那些隨著譜系時間線性單調(diào)增加或減少的基因,即單調(diào)表達基因MEGs(圖1)。第二步是基因表達變化速度的估計。本算法假設每個MEG的表達水平隨著時間的變化速率是恒定的,即擴散方程中的漂移系數(shù)是常數(shù)。通過最大似然估計,可以得到每個MEG的漂移系數(shù),從而得到每個細胞的單調(diào)基因表達變化速度的向量。將這個向量映射到降維空間(tSNE, UMAP等)重建RNA速度場,可推斷每個細胞在過去一個單位時間(例如一個細胞分裂或突變)的轉(zhuǎn)錄組狀態(tài),即逆時間重建細胞分化軌跡(圖1)。
作者在多種仿真數(shù)據(jù)和真實數(shù)據(jù)上對PhyloVelo算法的準確性和魯棒性進行了驗證,PhyloVelo都能夠高準確地推斷仿真數(shù)據(jù)中的線性、分叉和趨同等復雜分化結構,與真實分化軌跡高度一致(圖2)。此外,PhyloVelo還在小鼠早期胚胎發(fā)育中表現(xiàn)出優(yōu)于RNA velocity的性能,能夠準確地識別出紅細胞系列中血液/內(nèi)皮祖細胞作為最早期的細胞類型,并且與細胞增殖能力呈強相關(圖3)。
除了小鼠胚胎發(fā)育外,PhyloVelo還準確解析了小鼠和人類的腫瘤演化、免疫細胞動態(tài)發(fā)育等其他生物過程中的復雜分化軌跡,并量化了細胞類型之間的狀態(tài)轉(zhuǎn)換概率。例如,在肺癌模型中,PhyloVelo揭示了癌細胞的逆向分化軌跡。在抗PD-1治療后的CD8+ T細胞中,PhyloVelo發(fā)現(xiàn)活化CD8+ T細胞的來源在免疫治療前后有明顯的變化,表明T細胞高度的命運可塑性。
總之,PhyloVelo是一種利用單細胞譜系和轉(zhuǎn)錄組數(shù)據(jù)重建細胞命運轉(zhuǎn)變的新方法,具有高度的準確性和魯棒性。PhyloVelo不僅可以克服傳統(tǒng)RNA velocity方法的局限性,還可以發(fā)現(xiàn)隱藏在轉(zhuǎn)錄組數(shù)據(jù)中的“時鐘基因”,為揭示細胞分化的分子機制提供線索。PhyloVelo為研究生物發(fā)育和疾病進展提供了一個有力的工具,也為未來的單細胞譜系和轉(zhuǎn)錄組數(shù)據(jù)分析提供了一個新的視角。為了方便讀者使用PhyloVelo方法,研究團隊還在線發(fā)布了使用手冊和具體應用案例,詳見網(wǎng)站: https://phylovelo.readthedocs.io/en/latest/ 。
中國科學院深圳先進技術研究院合成生物學研究所胡政研究員與廈門大學數(shù)學科學學院周達副教授是該論文的共同通訊作者,中國科學院深圳先進院和廈門大學聯(lián)培博士生王琨是論文的第一作者。中山大學賀雄雷教授、中國科學院動物研究所翟巍巍研究員、美國斯坦福大學Christina Curtis教授、以及深圳先進院合成生物學研究所資治科研究員對本研究提供了寶貴的指導和意見。本項研究獲得科技部國家重點研發(fā)計劃、國家自然科學基金、廣東省杰出青年基金、中央高?;究蒲袑m椯Y金、中國博士后基金及深圳合成生物學創(chuàng)新研究院等項目的支持。
圖1 | PhyloVelo算法框架示意圖
圖2 | PhyloVelo準確推斷仿真數(shù)據(jù)中的細胞分化軌跡
圖3 | PhyloVelo重構小鼠血液系統(tǒng)發(fā)育的細胞分化軌跡
圖4 | PhyloVelo使用手冊網(wǎng)站截圖
附件下載: