• <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 發布時間:2019-12-10 10:11 原文鏈接: 分析比產生更快?中國“智”造全基因組組裝算法

      10年前,Illumina基因組測序技術進入市場時,前所未有的龐大數據量淘汰了較早開發的測序分析工具。

      歷史總是重演。如今,第三代測序技術已經達到低成本群體測序規模的臨界點。

      12月10日,《自然—方法學》在線發表了第一個能夠跟上基因組測序產生速度的組裝算法。

      論文作者、中國農業科學院農業基因組研究所博士阮玨與美國哈佛大學醫學院博士李恒,將這個新的第三代測序數據組裝算法稱為Wtdbg。

    第三代測序的尷尬

      20年前,破譯人類遺傳密碼還是極具挑戰的大科學工程,當時的人類基因組測序計劃與曼哈頓原子彈計劃、阿波羅計劃并稱為三大科學計劃。

      如今,完成一個人的全基因組測序已經是普通實驗室甚至家庭都可以負擔起費用的“平常事”。用第三代測序技術完成個體全基因組測序僅需一天,費用也已經低于5萬元。

      2011年,PacBio公司正式宣布第三代單分子測序開始商業化。

      相比于第二代測序每個序列的幾百堿基對測序讀長,第三代測序的平均讀長達到了幾萬堿基對,最長可以達到數百萬堿基對。

      西北工業大學生態環境學院教授邱強告訴《中國科學報》,這一技術出現時,科研人員期待利用它填補基因組序列中高重復高雜合的區域,挑戰高難度的基因組。

      然而,人們迅速發現,這一新技術的普及和應用遇到了很大的困難。

      “主要有兩個原因:第三代測序的成本在初期要遠高于第二代測序;由于第三代測序錯誤率較高,此前用于第二代基因組測序的組裝方法紛紛失效,缺乏有效率的組裝工具,特別是PacBio官方推出的falcon方法,消耗資源極多。”邱強介紹,數年后,Ont公司推出納米孔測序技術,市場競爭逐漸拉低了第三代測序的成本。

      而在基因組組裝方面,盡管已經出現了canu、marvel等多個組裝軟件,“但組裝仍然是一個十分費時費力的過程,一個哺乳動物基因組的組裝時間要數周”。

      以人類基因組組裝為例,在2014年需要消耗50萬個CPU小時,只能在超大計算機集群上進行。

      “這種情況下,同時對大量個體進行組裝分析是難以想象的。”但現實是,“以全基因組組裝方式對群體進行測序分析已經成為生物醫學研究的趨勢。”阮玨說。

    首次:數據分析比產生更快

      “wtdbg和即將推出的工具可能會從根本上改變當前測序數據分析的實踐。”阮玨在接受《中國科學報》采訪時說。

      此前,“數據產出速度遠高于數據分析速度。”因此,近年來,生物信息學領域的科學家群體致力于改變這種尷尬狀況,不斷開發出更高效的組裝分析算法。

      例如,繼falcon、canu等算法之后,2019年4月,美國加利福尼亞大學圣迭戈分校NIH計算質譜中心主任Pavel A. Pevzner在《自然—生物技術》上發表了Flye算法,其速度遠高于falcon、canu。

      而阮玨和李恒正式發表的第三代測序數據組裝算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次讓數據分析時間少于產出時間。

      西北工業大學生態環境學院的科學家已經用wtdbg組裝了十多個哺乳動物基因組。

      西北工業大學教授陳壘在接受《中國科學報》采訪時說:“我們用過falcon和canu等組裝方法,相比較而言,wtdbg組裝運算時間最快,占用資源少,能節省大量時間。組裝出的基因組連續性很高,組裝質量均符合現在主流的基因組評估。”

      特別是,對超大型基因組的組裝,wtdbg應該是目前為數不多的可以高效使用的組裝軟件。

      “對于人類基因組數據,wtdbg比已發布的工具快幾十倍,同時實現了相當的連續性和準確性。它代表了算法上的重大進步,并為將來群體規模的組裝分析鋪平道路。”阮玨說。

    模糊布魯因圖問世

      上世紀90年代,Pavel A. Pevzner將德布魯因圖引入了基因組組裝領域。德布魯因圖是一個展示符號序列之間重疊關系的有方向的圖。

      阮玨介紹,由于第二代測序錯誤率低,大部分短串(k-mer)是正確的,相同的短串間可以利用德布魯因圖的原理合并起來構成組裝圖。

      但第三代測序數據的錯誤率非常高,如果還是使用短串k-mer的話,大部分短串帶有測序錯誤,不可以合并起來。因此,德布魯因圖從未成功應用在第三代測序數據。

      突破性的方法基于突破性的理論基礎。

      2013年開始,阮玨和李恒著手解決第三代測序組裝的問題,分別開發的SMARTdenovo和Miniasm在領域內均有較好的表現。

      隨后在德布魯因圖基礎上,設計出一個新的組裝圖理論——模糊布魯因圖。

      他們重新定義了“短串”,將測序數據切分為固定長度的新型短串k-bin,k-bin比k-mer的長度更長。

      “新設計的模糊布魯因圖能夠容忍高噪聲數據,并隨后對生成組裝圖與恢復基因組序列做了大量相應的重構,使其兼具高效率和高容錯的優點。”阮玨說。

      “一般軟件組裝第三代測序數據的思路是,先對測序數據進行比對糾錯,再進行基因組序列的構建。”邱強說,wtdbg則直接進行基因組組裝,避免了需要提前糾錯的耗時步驟,直接得到一個相對可靠的組裝結果。

      “組裝費時費力這一問題的真正改善,正是從阮玨和李恒研發的wtdbg算法開始。”邱強說。

      在他們的課題組中,wtdbg算法得到了廣泛使用,極大提高了工作效率。不僅如此,他們還與阮玨進行了深入溝通,對超大基因組組裝進行了優化,“我們得以獲取40G左右的高質量基因組序列”。

    公眾參與下的技術改進

      2016年,為了讓基因組測序領域可以及時使用新技術,阮玨和李恒將wtdbg研究成果免費開放。

      3年來,wtdbg不僅被幾十篇學術論文引用,還被國內多家基因組測序分析公司作為主要組裝分析工具,并且在2019年世界大學生超算競賽中作為性能測試賽題。

      “我們通過郵件、GitHub網站等方式收到大量反饋,這些反饋不僅幫助我們修訂算法軟件中的漏洞,還帶來了新的想法和思路。換個角度來講,現在發表的論文已經經歷了3年多的‘公眾審稿’,感謝多年來參與和關注wtdbg開發的同行。”阮玨說。

      邱強認為,wtdbg算法不僅相對于更早的falcon、canu等算法具有效率和準確性的優勢,相比此后出現的flye等組裝算法也更可靠。“這一研究成果表明我國在基因組算法領域具有了引領國際的實力,也代表了我國科技發展的軟實力。”

      現在,科學家們可以使用全基因組組裝的方式,對大群體開展研究了。

    相關文章

    4000萬!20232026年中國科學院測序和質譜檢測項目公開招標

    公告信息采購項目名稱2023-2026年度測序服務商采購項目品目服務/科學研究和試驗開發/其他研究和試驗開發服務采購單位中國科學院遺傳與發育生物學研究所行政區域北京市公告時間2023年11月03日14......

    貝瑞基因:基于三代測序平臺單分子實時測序技術的動態突變檢測dmTGS

    貝瑞基因正式推出基于三代測序平臺單分子實時測序技術的動態突變檢測dmTGS,能夠進一步拓展疾病檢測范圍,一次性檢測41個基因導致的48種動態突變疾病。......

    Cellectis股價飆升超180%!阿斯利康又投2.45億

    今日,阿斯利康與Cellectis達成了一項利潤豐厚的合作協議,將向這家法國生物技術公司投資2.45億美元,進一步加強了其致力于開發細胞和基因療法產品的承諾。該消息令Cellectis的股價在周三盤前......

    NMPA:非小細胞肺癌組織TMB檢測試劑盒(可逆末端終止測序法)獲批上市

    近日,國家藥品監督管理局批準了南京世和醫療器械有限公司生產的“非小細胞肺癌組織TMB檢測試劑盒(可逆末端終止測序法)”創新產品注冊申請。該產品用于體外定性檢測EGFR基因突變陰性和ALK陰性的非鱗狀非......

    中國銀河給予諾禾致源買入評級,目標價位30.0元

    中國銀河證券股份有限公司程培近期對諾禾致源進行研究并發布了研究報告《平臺切換影響短期業務節奏,看好核心業務長期成長》,本報告對諾禾致源給出買入評級,認為其目標價位為30.00元,當前股價為20.61元......

    首個DNA損傷修復測序數據資源庫被開發

    10月13日,《核酸研究》(NucleicAcidsResearch)在線發表了中國科學院分子細胞科學卓越創新中心吳薇研究組與廣州國家實驗室完成的最新合作研究成果(DNADamageAtlas:ana......

    清華腦與智能實驗室團隊:揭示基因信息如何利用細胞形成組織空間形態

    近日,清華大學腦與智能實驗室與北京大學前沿交叉學科研究院組成的國際科學家團隊開發了一種新的計算方法,可以利用單細胞轉錄組數據重構細胞的空間組織。研究表明,這種名為DeNovoCoalescentEmb......

    病毒入侵時,生命體如何自我保護?

    在生命體內存在在這樣的一種英雄主義:細菌在殺死入侵病毒的那一刻“壯烈犧牲”,與其“同歸于盡”,以完成保護生命體的重任。早在20世紀50年代,科學家們就通過間接的手段檢測到了一種同歸于盡的自我保護行為,......

    2023醫療大數據:從“生產要素”到“資產”,距離數據流通還有多遠?

    千禧年后的第二個十年,移動醫療、人工智能等前沿技術的發展喚起醫療數據的需求。作為算法、算力、數據三要素中最常見但又最難獲取的要素,醫療數據彼時仍以碎片化、非標準化的形態分散于醫院各個系統中。為了尋找智......

    首個量子領域大模型上線了!

    百度量子計算研究所所長段潤堯介紹,該量子領域大模型是在百度文心一言的基礎上,使用量子領域高質量數據進行更有針對性的訓練和優化而成的。它能更好地理解量子知識,執行量子領域相關任務。據介紹,百度量子領域大......

  • <noscript id="yywya"><kbd id="yywya"></kbd></noscript>
  • 东京热 下载