單細胞生物學是當今的熱門話題。其中,最前沿的領域當屬單細胞RNA測序(scRNA-seq)了。常規RNA測序方法能一次性加工測序成千上萬個細胞,并給出平均差異。
沒有兩個細胞是完全一樣的,而新型的scRNA-seq方法就能揭示細胞中產生每種特異性的微小改變,甚至這種技術還能闡明完整的新細胞類型。
例如,當美國馬薩諸塞州博德研究所研究員Aviv Regev等人利用scRNA-seq對2400個免疫系統細胞進行探查時,無意中發現了一些具有潛在T細胞激活活性的樹突細胞。Regev表示,能刺激這些細胞的疫苗或可潛在增強機體免疫系統,并且保護機體抵御癌癥。
但這些發現都來之不易。與大量細胞相比,研究人員很難對單個細胞進行操作,因為每種細胞僅會產生少量的RNA,于是沒有犯錯的余地。另外一個問題是,如何對大量數據進行分析——目前的工具可能并不直觀。
《自然》雜志報道指出,一般而言,RNA測序數據能被以指令的形式輸入到Unix操作系統中進行分析。數據文件會從一個軟件包傳輸到另外一個,在這個過程中,每個工具都要對每個步驟進行處理:例如基因組比對、質量控制、識別突變體等。而這個過程非常復雜。
但對于大量的RNA測序而言,研究人員可以利用算法對每個步驟進行處理,而且他們也非常清楚每個過程的運行狀況。英國癌癥研究所計算生物學家Aaron Lun表示,為了分析不同的基因表達,大規模RNA測序“基本上能解決問題”。對于scRNA-seq而言,人們還需要找到更便捷的方法分析數據集和編寫更有用的算法。
如今,人們有很多在線資源和工具能簡化scRNA-seq數據分析過程,其中名為GitHub的平臺就整合了70多種工具和資源,而且相關的工具和資源能覆蓋分析過程的每一步。
定制技術
美國夏威夷大學生物信息學家Lana Garmire在2016年發表的一篇研究報告中列出了他們進行scRNA-seq數據分析的基本步驟。盡管每個實驗都具有特殊性,但很多分析流程都是按照相同的步驟對數據進行過濾以及排序的,同時還能夠找出哪些轉錄物會被表達,并能糾正擴增效率的差異性。隨后研究人員就能夠進行一個或多個二級分析檢測亞群和其他功能。
威斯康星大學麥迪遜分校生物統計學家Christina Kendziorski談道,在許多情況下,大規模RNA測序使用的工具也可以應用于scRNA-seq。但數據的根本差異意味著,這并不總是可行的。
Lun也表示,一方面,單細胞測序數據的背景噪聲更大。在如此少量RNA的情況下,擴增和捕獲效率的微小變化,就可能在細胞間產生與生物學無關的巨大差異。因此,研究人員必須對“批量效應”保持警惕,因為在不同日期制備的看似相同的細胞,可能因為純粹的技術原因而不盡相同,導致“中途退出”的基因在一些細胞中表達,但在測序的數據中卻沒有發現。
另外,澳大利亞張任謙心臟研究所生物信息學家Joshua Ho指出,研究人員面臨的一個挑戰就是規模問題。經典的RNA測序實驗往往包含了少量樣本,但scRNA-seq研究中則含有成千上萬個樣本。而當前工具在遭遇十倍甚至百倍的樣本時,其效率通常就會降低。
即使是一個看似簡單的問題——例如,好的細胞制備工作包含什么,在scRNA-seq的世界也是復雜的。“或許因為目標不同,因此不同測序方法需要不同的工具分析數據。”Lun說。
例如,一種最常見的單細胞分析類型就是維數約減,這一過程就能夠簡化數據集以促進對相同細胞的識別。英國桑格學院研究所計算機生物學家Martin Hemberg認為,scRNA-seq數據能夠把單個細胞描繪成為“具有20000個基因表達值的一覽表”。而諸如主成分分析法(PCA)和t-分布鄰域嵌入算法(t-SNE)等維數約減算法則能有效地將這些形狀投射到兩個或三個維度,從而使得相似的細胞聚集在一起。
另外一種流行的應用就是擬時分析。2014年,美國華盛頓大學生物學家Cole Trapnell就開發了首個此類工具,名為Monocle。該工具能夠利用機器學習的方法來對scRNA-seq實驗性的數據進行推斷。
諸如哈佛大學醫學院的Peter Kharchenko 開發的Pagoda等工具還能夠解決亞群特征檢測和空間位置確定等信息,其能利用組織中基因表達的分布數據確定每一個組織中的轉錄組學表達情況。
此外,紐約基因組研究中心研究者Rahul Satija開發了一種名為Seurat的工具,該工具能夠利用這些數據將細胞定位在三維空間中的點。“我們之所以將其命名為打包Seurat,是因為這些點提醒我們想起點彩派畫家繪畫中的點。”Satija說。
如今,研究人員已經開發出了一些即用型的檢測“流水線”,當然還有一些端對端的圖像工具,包括一些商業性的SeqGeq包以及一些成對兒的網絡開放性工具,比如Granatum和ASAP(自動的單細胞分析流水線,the Automated Single-cell Analysis Pipeline);Granatum和ASAP能夠利用網絡瀏覽器提供相對簡單、交互式的工作站來幫助科學家們以圖形化的模式來深度分析數據;目前這兩個工具能夠更好地幫助科學家們進行日常的測序工作。
充當“多面手”
盡管定位于特定任務,這些工具通常能處理各種問題。例如,Seurat能助力細胞亞群分析,Regev用來鑒別新的免疫細胞類型。
實際上,加州大學圣迭戈分校生物信息學家Gene Yeo表示,大多數的scRNA-seq工具都是基于R語言的Unix程序或軟件包編程的,但相對而言,很少有生物學家在這些環境中工作。即便是這樣,他們也可能沒有時間下載和配置所有工作,使這些工具真正發揮作用。
不過,研究人員已經開發了一些即用型的流程。還有端到端的圖形工具,包括來自FlowJo的商業化GenSeq軟件包,以及一對開源的Web工具:來自Garmire集團的Granatum和來自瑞士聯邦理工學院Bart Deplancke實驗室的ASAP(自動單細胞分析流程)。
ASAP和Granatum使用Web瀏覽器提供相對簡單的交互式工作流程,使研究人員能夠以圖形的方式探索數據。在用戶上傳了數據后,軟件會逐步走完他們的步驟。對于ASAP而言,這意味著通過可預處理、可視化、聚類和基因表達差異分析獲取數據;Granatum還允許擬時間分析和蛋白質交互作用數據的整合。
Garmire和Deplancke也都表示,ASAP和Granatum旨在讓生物信息等多個領域的研究人員共同合作。研究人員曾經認為,“(生物信息學家)獲取數據并產生結果是十分神奇的。”夏威夷大學博士生、Granatum首席開發人員Xun Zhu表示,“現在研究人員可以參與一些參數的調整,這是一件好事。”
仍需謹慎
當然,這些工具并不是在每一種情況下都是完美的。例如一種能夠精確鑒別細胞類型的“流水線”或許在進行擬時間分析上并不擅長。此外,加州大學伯克利分校生物統計學家Sandrine Dudoit表示,一些適當的方法或許還具有一定的數據依賴性。
這些方法和參數可能需要根據序列長度等變量進行調整。不過,英國癌癥研究所的John Marioni認為,重要的是不要完全信任它們。“人們不可能只因為衛星導航讓自己開車沖進河里就這樣做。”他說。
對于初學者而言,嚴謹是非常必要的,生物信息學工具幾乎總能給出一個答案,那么問題是,這些答案意味著什么?對此,科學家建議進行一些探索性分析,同時對人們選擇的算法進行一些假設性的研究。
而Satija指出,有些分析性的任務仍然極具挑戰性,包括將來自實驗條件下或有機體中的數據同來自不同組學整合的數據進行對比。
不過,目前研究人員能夠使用足夠多的工具進行研究,而那些對其感興趣的科學家也在不斷鉆研。每種新型工具都能揭示生物學的另一面,因此只要時刻關注科學,人們就能做出明確的選擇。
編輯點評
美國馬薩諸塞州博德研究所研究員Aviv Regev等人利用scRNA-seq對2400個免疫系統細胞進行探查時,無意中發現了一些具有潛在T細胞激活活性的樹突細胞。新的研究還在繼續,目前先關的研究顯示新軟件讓單細胞測序更簡單,還可以充當“多面手”。當然,這些工具并不是在每一種情況下都是完美的,在研究的道路上還需謹慎。