單細胞基因組學和宏基因組學是開創性的技術,可幫助研究人員評估環境微生物群落的結構和功能。現在應用這些技術的項目越來越多,但是,仍缺乏一種高通量過程來檢查所組裝的基因組序列,從而阻礙了這些技術的廣泛應用。目前,去除已上傳到公共數據庫的微生物基因組中的污染序列,還是一個手動和耗時的過程,為了去除污染序列,就需要有關它們的信息。
為了解決這個障礙,來自美國能源部聯合基因組研究所(DOE JGI)原核生物超級項目(Prokaryotic Super Program)的一個研究團隊,首次開發了一種計算機程序,可快速、自動地去除基因組草圖中的污染序列。他們開發的這種工具稱為ProDeGe (Protocol for Decontamination of Genomes),發表在六月九日的Nature旗下子刊《The ISME Journal》。
該研究小組表示,ProDeGe適用于任何類型的基因組序列,在這項研究中,研究人員使用182個手動篩選的單一擴增基因組(SAGs)對其進行了校準,基因組序列來自兩個公開的數據集——一個是Microbial Dark Matter project,另外一個是擬南芥植物數據。
快速去除序列污染
該小組報道稱,這種工具將基因組序列分類為“干凈的”或“污染的”,并以每百萬堿基序列0.30 CPU核小時的速度運行。本文第一作者Kristin Tennessen指出:“一名專家手動凈化1巨堿基序列,需要約六小時的時間。而使用ProDeGe則提速了約20倍。她補充說,如果手動用戶是沒有經驗的,去除污染序列的速度提高的更快。
用于質量控制的污染序列去除工具
英屬哥倫比亞大學DOE JGI 長期合作者、ProDeGe用戶Steven Hallam說:“每年都產生大量的環境序列信息,單細胞基因組測序也越來越普及。因此,ProDeGe將填補QA/QC工作流程在個人用戶和平臺服務之間的一個關鍵差距。”
研究人員補充說,ProDeGe向“為培養微生物和未培養微生物基因組,建立一套質量控制標準”邁出了第一步。防止污染序列數據傳播到公共數據庫,是很有價值的,從而能避免產生誤導性的分析。該程序的全自動化,可減輕科學家的人工篩選時間,產生可靠、干凈的數據集,并首次使我們能夠高通量地篩選數據集。因此,在新一代DNA測序和獨立培養微生物基因組學的時代,ProDeGe代表了我們工具箱中的一個關鍵部件。
作為ProDeGe工具的使用者,Bigelow 實驗室單細胞基因組中心主任Ramunas Stepanaukas和DOE JGI的合作者補充說,單細胞基因組學和宏基因組學已經成為未培養微生物生物學信息的主要來源,這是我們這個星球上大多數生態系統的主要成分。DNA污染風險,是單細胞基因組測序和基因組組裝的一個重要挑戰。預防、檢測和去除單細胞基因組學和宏基因組學數據中的污染序列,對于了解我們星球的生態系統,是至關重要的。新的實驗室和計算工具,如ProDeGe,是確保這些新興研究領域中數據質量高標準的關鍵。
ProDeGe上傳和分析數據集的Web界面,可以訪問http://prodege.jgi-psf.org。Prodege獨立軟件可以從http://prodege.jgi-psf.org/downloads/src下載,可在Perl、R和NCBI Blast系統上運行。
冰島基因解碼公司科學家完成了一項重要研究。他們繪制了一份人類基因組完整改組圖譜,即詳盡的人類DNA在生殖過程中混合方式的地圖。這項研究深化了人們對遺傳多樣性的理解,是25年來科學家探索人類基因組中新生......
人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......
圖胚胎肝細胞通過分泌Fetuin-A蛋白維持造血干祖細胞基因組的穩定性在國家自然科學基金項目(批準號:81920108005、U23A20417、81730007、31872842、91442106)......
圖胚胎肝細胞通過分泌Fetuin-A蛋白維持造血干祖細胞基因組的穩定性在國家自然科學基金項目(批準號:81920108005、U23A20417、81730007、31872842、91442106)......
12月28日,由人民數據開發的“數融平臺”正式上線試運營。平臺整體依托區塊鏈、人工智能和企業經營相關數據要素,實現鏈上信息全透明、全上鏈,實現數據資產情況全穿透,實時追蹤一手風控數據,對潛......
隨著新一輪科技革命和產業變革深入發展,數據作為關鍵生產要素的價值日益凸顯。五部門:制定數據產業發展促進政策近日,國家數據局聯合中央網信辦、工業和信息化部、公安部、國務院國資委印發了《關于促進企業數據資......
中新網騰沖12月7日電題:海歸科學家謝曉亮的赤子之心作者陸希成繆超白玲初冬的云南僑鄉騰沖,陽光灑落,白云悠然。靜靜矗立的滇西抗戰紀念館、國殤墓園,訴說著這座“英雄之城”的故事。“在騰沖能夠充分感受到先......
2024年12月3日,自然科學基金委管理科學部、信息科學部在北京召開專項項目“數據市場制度設計與關鍵技術”評審會議。自然科學基金委黨組成員、副主任江松院士出席會議并講話。國家數據局政策與規劃司副司長欒......
《科學》雜志15日發布了一項突破性研究成果:美國斯坦福大學Arc研究所團隊利用人工智能(AI),開發出一種大規模基因組基礎模型“Evo”,翻開了生命的“密碼全書”。該模型采用先進架構,能夠以前所未有的......
11月5日凌晨,中國科學院動物研究所攜手華大生命科學研究院、北京基因組研究所(國家生物信息中心),在全球頂尖學術期刊《細胞》(Cell)上發表了最新研究成果,利用華大自主研發的“超廣角百億像素生命照相......