單細胞生物學研究一直是當今的熱門話題,而且-前沿的領域就是單細胞RNA測序了(scRNA-seq)。常規RNA測序方法一次性能夠對成千上萬個細胞進行加工測序,并給出平均差異,但并沒有兩個細胞是完全一樣的,而新型的scRNA-seq方法就能夠揭示出制造每一種特異性的微小改變,甚至這種技術還能夠闡明完整的新的細胞類型。
比如,當來自博德研究所的研究人員Aviv Regev等人利用scRNA-seq對2400個免疫系統細胞進行探查時,他們無意中發現了一些具有潛在T細胞激活活性的樹突狀細胞,Regev表示,一種刺激這些細胞的疫苗或能夠潛在增強機體免疫系統并且保護機體抵御癌癥。當然了,這些發現都是來之不易的,相比大量細胞而言,研究人員很難對單個細胞進行操作,因為每一種細胞僅會產生少量的RNA,對于研究者而言沒有犯錯的余地;另外一個問題就是如何對大量的數據進行分析,重要的是,研究者使用的工具可能是并不直觀的。
一般而言,RNA測序數據能夠被以指令的形式輸入到Unix操作系統中進行分析,數據文件會從一個軟件包傳輸到另外一個,在這個過程中,每個工具都要對每一個步驟進行處理,比如基因組比對、質量控制、識別突變體等等。這個過程是非常復雜的,但對于大量的RNA-seq而言,研究人員可以利用算法對每一個步驟進行處理,而且他們也非常清楚每個過程的運行狀況。
如今網上有很多在線資源和工具能夠簡化scRNA-seq數據分析的過程,其中名為GitHub的平臺(Awesome Single Cell)就整合了70多種工具和資源,而且相關的工具和資源能夠覆蓋分析過程的每一步。
定制技術
在2016年發表的一篇研究報告中,來自夏威夷大學的生物信息學家Lana Garmire就列出了他們進行scRNA-seq數據分析的基本步驟,盡管每一個實驗都具有特殊性,但很多分析流程都是按照相同的步驟進行過濾以及對數據進行排序的,同時還能夠找出哪些轉錄物會被表達并且能夠糾正擴增效率的差異性,隨后研究人員就能夠進行一個或多個二級分析來檢測亞群和其它功能。
研究人員所面臨的另外一項挑戰就是規模問題,經典的RNA-seq實驗往往包含了少量樣本,但scRNA-seq研究中則含有成千上萬個樣本,能夠處理少量樣本的工具當遭遇十倍甚至百倍的樣本時,其效率通常就會降低。比如一種-常見的單細胞分析類型就是維數約減(dimensionality reduction),這一過程就能夠簡化數據集來促進對相同細胞的識別;桑格學院研究所的計算機生物學家Martin Hemberg認為,scRNA-seq數據能夠把每一個細胞描繪成為“具有20000個基因表達值的一覽表”。而諸如主成分分析法(PCA)和t-分布鄰域嵌入算法(t-SNE algorithm)等維數約減算法則能夠有效地將這些形狀投射到兩個或三個維度,從而就能夠使得相似的細胞聚集在一起。另外一種流行的應用就是偽時分析,2014年研究人員就開發了一種名為Monocle的工具,該工具能夠利用機器學習的方法來對scRNA-seq實驗性的數據進行推斷。
當然,諸如Pagoda等其它工具還能夠解決亞群特征檢測和空間位置確定等信息,其能夠利用組織中基因表達的分布數據來確定每一個組織中的轉錄組學表達情況;來自紐約基因組研究中心的研究者Rahul Satija就開發了一種名為Seurat的工具,該工具能夠利用這些數據將細胞定位在三維空間中的點。
如今,研究人員已經開發出了一些即用型的檢測“流水線”,當然還有一些端對端的圖像工具,包括一些商業性的SeqGeq包以及一些成對兒的網絡開放性工具,比如Granatum和ASAP(自動的單細胞分析流水線,the Automated Single-cell Analysis Pipeline);Granatum和ASAP能夠利用網-絡瀏-覽器提供相對簡單、交互式的工作站來幫助科學家們以圖形化的模式來深度分析數據;目前這兩個工具能夠更好地幫助科學家們進行日常的測序工作。
使用工具時需要警惕
這些工具并不是在每一種情況下都是完美的,比如一種能夠善于精-確鑒別細胞類型的“流水線”或許在進行偽時間分析(pseudo-time analysis)上并不擅長;此外,一些適當的方法或許還具有一定的數據依賴性。
對于初學者而言,嚴謹是非常必要的,生物信息學工具幾乎總是能夠給出一個答案,那么問題是,這些答案意味著什么呢?來自加利福尼亞大學的研究者Sandrine Dudoit的建議就是進行一些探索性的分析,同時對我們選擇的算法進行一些假設性的研究。有些分析性的任務仍然極-具挑戰性,包括將來自實驗條件下或有機體中的數據同來自不同組學整合的數據進行對比。
目前研究人員能夠使用足夠多的工具來進行研究,而那些對其感興趣的科學家也在不斷鉆研;每一種新型工具都能夠揭示生物學的另一面,因此只要時刻關注科學,我們就能夠做出明確的選擇。
通過轉錄組測序獲得人的基因表達譜數據,能進一步挖掘疾病相關的生物標志物,為臨床診斷提供依據。目前,由于轉錄組測序無法溯源,導致不同實驗室及測序平臺產出的數據可比性和測序結果的準確性面臨挑戰。中國計量科......
科技日報北京8月15日電(記者張佳欣)據最新一期《自然》雜志報道,德國康斯坦茨大學和維爾茨堡大學領導的國際研究團隊,對動物界最大基因組的擁有者——肺魚進行了基因組測序。肺魚基因組約為人類基因組大小的3......
據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究團隊期望通過測序得到的基因組圖譜,......
瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據不同分子環境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫學和生物技術在內的多個領域帶來......
科技日報北京8月8日電(記者劉霞)據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究......
美國格拉德斯通研究所團隊開發了兩種新的單分子分析工具,可將所需的DNA量減少90%至95%。該研究成果發表在最新一期《自然·遺傳學》雜志上,展示了這些工具如何幫助科學家解決他們以前無法回答的生物學問題......
近日,國家藥典委員會發布了《微生物全基因組測序技術指導原則》的第二次公示稿,以征求社會各界的意見和建議。公示期為一個月,從即日起至2024年7月1日結束。《微生物全基因組測序技術指導原則》旨在為藥品微......
華大智造近日公布了其2023年的財務報告,2023年的營業收入達到了29.11億元,較2022年的42.31億元降低了31.19%。營業總成本33.31億元,其中研發投入9.1億元,占總收入的31.2......
為便于供應商及時了解政府采購信息,根據《江蘇省財政廳關于做好政府采購意向公開工作的通知》等有關規定,現將南京醫科大學(本部)2024年5月(第1批)政府采購意向公告如下:編號項目名稱采購需求概況采購預......
冠狀動脈旁路移植術(CABG)又被稱為冠狀動脈搭橋術,是改善心臟自身血供的手術,可以有效治療冠心病導致的心肌缺血。該手術從患者身上取下一段健康的血管供體,一端與升主動脈相連,另一端與冠狀動脈堵塞部位的......