7月20日,山東大學數學與交叉科學研究中心李國君教授團隊在生物信息學頂級期刊Genome Research發表轉錄組重構重要研究成果“TransMeta simultaneously assembles multisample RNA-seq reads”。山東大學為論文第一完成單位,數學與交叉科學研究中心于婷博士與數學學院趙曉宇博士為論文共同第一作者,李國君教授為文章獨立通訊作者。
RNA-seq測序技術為揭示和研究真核生物轉錄組的復雜結構提供了前所未有的機遇,基于RNA-seq數據精確重構轉錄本是轉錄組學開展后續分析的前提,為基因差異表達分析等下游研究起到鋪墊作用,尤其是對包括癌癥在內的復雜疾病的研究具有重大意義。然而如何從海量測序片段準確高效地重構出全長轉錄組,是目前面臨的一個重大挑戰。幾乎所有轉錄組學研究都涉及多個樣本的RNA測序,如何針對多樣本的RNA測序數據創建一個一致的轉錄本集合也十分關鍵。目前,幾乎所有的轉錄組組裝算法都是針對單樣本測序數據設計,專門針對多樣本測序數據進行組裝的工具卻非常匱乏,而且其組裝效果并不理想。
為此,李國君教授團隊開發了一個全新的多樣本轉錄組組裝算法--TransMeta,實現了多個樣本RAN-seq數據的同步精確組裝,既可以為多樣本測序生成一個一致的轉錄組,又可以同步地為每個獨立樣本生成一個特定的轉錄本集合。TransMeta算法引進了一個全新的圖模型--向量加權剪接圖模型(Vector Weighted Splicing Graph Model),區別于傳統剪接圖的標量加權,TransMeta算法首次提出了使用向量來對剪接圖賦權的思想,其中向量的大小對應于要組裝的樣本個數,這合理地將轉錄組組裝問題從一維的情況推廣到了高維的情況,即從單樣本組裝推廣到了多樣本組裝?;谙蛄考訖嗉艚訄D模型,TransMeta算法著重考慮向量權之間的余弦相似度與雙端測序信息,通過引進一個約束最優化問題實現了對剪接圖的有效梳理,并結合一種基于動態規劃的路徑搜索策略來精確地重構轉錄本。
通過在多組包含不同樣本個數的數據集(包括模擬數據與真實數據)上的測試,并與目前組裝效果最好的組裝算法,包括PsiCLASS,StringTie2,Scallop與TACO,進行比較, TransMeta算法在重構轉錄本的準確率與召回率上都有了明顯的提高。在5組真實數據多樣本組裝層面的比較中,通過調整參數使得各個方法組裝準確率相當時,TransMeta的召回率比表現次好的方法PsiCLASS高出了21%-57%。在單樣本組裝層面的比較中,TransMeta算法同樣達到了最優,在包含73個樣本的肝臟細胞測序數據上TransMeta的召回率比其他算法高出了19.6%-75.2%。
本項研究工作是轉錄組重構領域的一個重要突破,尤其是以向量來加權剪接圖,并基于向量權設計組裝算法,對相關領域的后續研究具有重要的推動作用。該項研究得到了國家自然科學基金重點項目的資助。