Andreas D.Baxevanis
Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland 在尋找基因和致力于發現新蛋白的努力中,人們習慣于把新的序列同已知功能的蛋白序列作比對。由于這些比對通常都希望能夠推測新蛋白的功能,不管它們是雙重比對還是多序列比對,都可以回答大量的其它的生物學問題。舉例來說,面對一堆搜集的比對序列,人們會研究隱含于蛋白之中的系統發生的關系,以便于更好地理解蛋白的進化。人們并不只是著眼于某一個蛋白,而是研究一個家族中的相關蛋白,看看進化壓力和生物秩序如何結合起來創造出新的具有雖然不同但是功能相關的蛋白。研究完多序列比對中的高度保守區域,我們可以對蛋白質的整個結構進行預測,并且猜測這些保守區域對于維持三維結構的重要性。
顯然,分析一群相關蛋白質時,很有必要了解比對的正確構成。發展用于多序列比對的程序是一個很有活力的研究領域,絕大多數方法都是基于漸進比對(progressive alignment)的概念。漸進比對的思想依賴于使用者用作比對的蛋白質序列之間確實存在的生物學上的或者更準確地說是系統發生學上的相互關聯。不同算法從不同方面解決這一問題,但是當比對的序列大大地超過兩個時(雙重比對),對于計算的挑戰就會很令人生畏。在實際操作中,算法會在計算速度和獲得最佳比對之間尋求平衡,常常會接受足夠相近的比對。不管最終使用的是什么方法,使用者都必須審視結果的比對,因為再次基礎上作一些手工修改是十分必要的,尤其是對保守的區域。
由于本書偏重于方法而不是原理,這里只討論一小部分現成的程序。我們從兩個多序列比對的方法開始,接下去是一系列的利用蛋白質家族中已知的模體或是式樣的方法,最后討論兩個具有贈送的方法,因為絕大多數公開的算法不能達到出版物的數量。在本章結尾部分將會列出更詳細的多序列比對的算法。 漸進比對方法 CLUSTAL W
CLUSTAL W算法是一個最廣泛使用的多序列比對程序,在任何主要的計算機平臺上都可以免費使用。這個程序基于漸進比對的思想,得到一系列序列的輸入,對于每兩個序列進行雙重比對并且計算結果。基于這些比較,計算得到一個距離矩陣,反映了每對序列
Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc. 的關系,于是,基于鄰近加入方法,這個矩陣被用來計算出一個系統發生輔助樹。這個輔助樹,加權后可以證實極相近的序列,然后以雙重比對極相近的序列開始,為組建比對提供基礎,然后重新比對下一個加入的比對,依次類推。如果加入的序列較多,那么毫無疑問,必須加入空位以適應序列的差異,但是加入空位必須接受空位開放罰分和空位擴展罰分。在絕大多數情況下,使用者不會在比對時加入結構信息,但是空位開放補償利用了可以出現在α-螺旋或β-折疊末端的特殊殘基以及空位罰分所偏好的殘基,眾所周知,這些殘基更喜歡顯示這個特異性。已經存在的空位的擴展原則很簡單,只是要在那些極有可能在結構中形成彎曲的位點擴展空位,這些空位擴展罰分計算是有位置決定的。 為了介紹基于UNIX平臺的CLUSTAL W的使用,考慮一下從四種不同物種來源的UIA蛋白(人類,鼠,Xenopus laevis和果蠅)。這四種輸入序列放在一個單獨的文件中,作成六種可以接受的格式中的一種,然后在UNIX提示符下執行clustalw,用戶必須執行命令才會看見主菜單: ********************************************************************* **********CLUSTAL W(1.60) Multiple Sequence Alignments****************** ********************************************************************* Sequence Input From Disc Multiple Alignments Profile / Structure Alignments Phylogenetic trees S. Execute a system command H. HELP X. EXIT (leave program) Your choice: 1 選擇菜單中的選項1(Sequence Input From Disc)以輸入要比對的序列,選擇1后會出現序列輸入菜單: Sequences should all be in 1 title. 6 formats accepted: NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF. Enter the name of the sequence file: UIA.seqs 系統會提示用戶有六種可以接受的格式,然后會提問輸入序列的文件名,在這里序列輸入文件名為UIA.seqs,一旦輸入這個文件名,屏幕上會顯示讀取文件的過程,然后返回主菜單,這時,用戶可以選擇選項2進行多序列比對: **************** MULTIPLE ALIGNMENT MENU ***************** DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) Produce guide tree file only do alignment using old guide tree file Toggle Slow Fast pairwise alignments = SLOW Pairwise alignment parameters Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format ooptions S. Execute a system command H. HELP or press [RETURN] to go back to main menu Your choice: 1 從這一點看,用戶在執行多序列比對時有很多選擇的自由,舉例來說,在Multiple Alignment Parameters下,用戶可以實際空位開放和擴展的罰分,指出在組建輔助樹時分歧到什么程度證明可以跳過一個序列,選擇一個分值矩陣(BLOSUM或PAM),并且可以選擇當一個親水殘基出現(或缺失)在一個特異位點時,是否要執行特異性罰分,如果需要,要罰多少分。在Pairwise Alignment Parameters下,用戶可以調整用于慢比對和快比對的罰分和窗口大小。因為在這個例子中,我們沒有可以用來指示我們改變比對參數的任何信息,因此只有選擇選項1(”Do complete multiple alignment now”)。選擇選項1后,程序會在屏幕上顯示構件輔助樹的過程,然后開始真正的所序列比對。 CLUSTA W結束時,會顯示最終的比對結果,上述的例子的結果顯示在圖8.1中。在比對下方,一些位點被標記為星號或圓點,這些標記分別顯示這些殘基在序列中是絕對或是高度保守的。如果返回的比對出現太多的空位或是不考慮這些蛋白的任何已知信息,用戶就可以再修正參數,然后返回程序,看它是否影響最終的比對。 CLUSTAL W (1.60) multipls sequence alignment hum-U1A ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ xla-U1A ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ dme-U1A ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ * * *************.****************** . . .***** hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP xla-U1A AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA ******* **.****.***********.* *.*.****.**.***. ** .* . hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP mse-U1A KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPGMPPP dme-U1A PGTDEKKDKKKK-----------------------------------------------P . * * hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFPG xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG dme-U1A SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG * . * . .*.***.*************.*********** hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK ********.********* .*.*..**...******* ..***.**** 圖8.1、 以四種 U1A 序列為一系列的輸入序列,使用CLUSTAL W多序列比對程序后得到的比對結果。保守性極高的殘基位置由星號標記在序列下方的相應位置,保守性稍低的殘基由打點標記出來。 MultiAlin