4. 傳輸數據轉化為光密度
傳輸的數據必須轉換成光密度(當然熒光染色不能做這種轉換)。在大多數的二維數據包中不需要用到這個。蛋白質濃度與光密度呈線性相關,而非傳輸值。光密度 (OD) 和傳輸值之間的關系如下:OD= - log (I/I0) 。
由于這種關系不是直線,一個給定的傳輸增加值與不同的 OD 增加量相對應,這依賴于傳輸數值的原始值。只要使轉換的光密度與點量和蛋白質量成線性關系。如果某一特定蛋白質分別來源于 A 和 B 兩個不同的樣本,且 B = A + X,那 么 ODB = OD(A+X) =ODA+ ODX,其結果 OD 是相加關系,這對于傳輸值是不正確的,在背景減除之前必須先做這種轉換(圖 16-1)。
一般地,可以通過掃描柯達條帶( Kodak strip) 轉換成 OD。二維軟件數據包含有一種工具來記錄與傳輸數據相應的已知 OD 和計算調整曲線。值得注意的是,轉換必須顧及 OD 和傳輸值之間的自然對數的關系,否則線性回歸是沒有用的。
3.3 點量的均一化
正如在 1. 中已經討論過的,大部分的變化點是與凝膠效應相關的:在蛋白質上樣過程中,在二維電泳中可能的蛋白質沉淀和在染色過程中的不可控變化都有可能影響凝膠整體強度。這種變化或多或少會影響某一特定凝膠上所有的點,所以均一化的目的是糾正這些普遍的差異。因此,均一化應該在蛋白點轉化為 OD 值和背景消除以后進行( 見注釋 2) 。
1. 蛋白點均一化的定義
進行點檢測的區域由用戶決定。一般情況下蛋白點的均一化要在同一個區域中進行。在所有凝膠中確定一個相同的區域很重要,因為這種廣泛的均一化模式是基于這個區域中所有蛋白質點的總量。由于凝膠-凝膠變化(不完整的凝膠,因各種原因難以定義的區域),并不總是能夠確定所有的凝膠中蛋白點檢測的相同區域。那么,這時最好定義另一個區域作點的均一化。其實,即使感興趣的同一區域被限定作點檢測,而為了計算均一化界定更小的區域將更加實用,凝膠上大多數可變區可拋棄。蛋白點體積的均一化是依照用戶自定義區域中點的總量而定的,可以用二維軟件包簡單程序化。從二維軟件包中輸出的數據包括 X、Y、非均一化的量、在每個凝膠上的每個檢測點優化的匹配數目(即參考數)。這些數據很容易在一般的二維軟件包輸出(如通過從 Progenesis 的測量窗口輸出數據)。
“ firstgel. csv” 是一個文本文件,其中第一行包含列標題,下面的行包含點的數目、匹配點的數目、X、Y 和在第一向凝膠上所有檢測點的非均一化的量。圖 16-2 顯示的是用 SAS 語言編寫的程序,根據用戶自定義區域所有點的總量使其歸一化,并產生一個單獨的固定表格,其中每個點是一個變量(一列),每一個凝膠是一行(一個觀察值)。 雖然圖 16-2 沒有表示,但這種方法容易與另一個方法配合使用。舉例來說,點的總量計算可以限制在所有凝膠上出現的點(見 16.3.5 節 )。 計算也可以只限于特異的一系列點。但是,最終選定作歸一化的點數不應該太少:數目越少,歸一化越不穩定。
如圖 16-2 程序所示,由于有許多的注釋,所以看起來非常復雜,其實他們是相對明確而簡單的。正如分析定性和定量的變化有不同的方法,歸一化也有不同的方法。可以用最普通的統計數據包進行編輯,方法上比二維數據包自帶的有限統計工具更加便捷和先進。
2. 其他點的歸一化方法
另一種點的歸一化方法是基于在參考凝膠與所研究凝膠同一區域上點的體積比:volrcf /volgel,要計算參考凝膠和研究凝膠上所有的匹配點。均一化是由凝膠上的所有點的體積與相應比值的平均值(或中值)乘積組成。由于沒有將全部點計算,該方法的準確性并不取決于均一化區域的精確界定。當然即使它的重復性不是很好,我們仍然可以使用感興趣的經典區域。因為它是基于在兩塊凝膠上匹配的點(即在均一化的凝膠和在參考凝膠上),均一化涉及的點數多于在所有凝膠上出現的點數,因為隨著實驗中凝膠數量的增加,凝膠上點的數量會明顯下降。
這種方法在理論上也優于同一區域上相對應的所有點的歸一化方法,因為它對于一個處理的特異性點沒有偏差。它可以通過計算在一個特定的范圍內點的體積比來提高其準確性。事實上,可以不考慮很微弱的點,因為小體積的變化可以引起大比率的變化,而且非常大的點也應排除在外,因為這些大點的近飽和值缺少線性關系。
在此方法中未匹配的點是沒有用的,只有包含所有凝膠上所有匹配點的原始量和匹配數目的一個表將被輸出。程序如圖 16-3 所示,從 CSV 文件中提取的數據來源于 Progenesis 軟件的 “比較窗口” 。第一列包含匹配的名字,接下來的列包含不同凝膠上點的非歸一化量值。值得注意的是,如果對由二維軟件所提出的歸一化方法滿意的話,這種定量數據輸出的方式也是最方便的。同時輸出的文件還可以用于可重復性點和定性變化點的選取 ( 見 16. 3. 5 ) 。
Burstin 等 [1] 建立了另一種點均一化方法。它是基于主成分分析法,適用于當所研究的參數變量相對于殘差較小時,或者是這種變異只涉及少數點時。這里不作進一步介紹。
3.4 相對強度和相對量的線性關系
分析蛋白質(豐度)含量與測量點的體積間的關系是十分有趣的。一種做法是,比較載有相同樣本的一系列蛋白質含量的凝膠。不過,在真正的比較中,由于點的量是歸一化的,這并不能給出一個正確的量化估計。實際上,人們不能從載有相同樣本不同含量的凝膠上歸一化點的量,這是由于歸一化將消除整體凝膠效應,而這種效應是由蛋白質上樣差異所造成的。
更好的方法是使用兩種包含特定點的不同樣本(如感興趣的樣本和另一來自不同的物種或器官的樣本),并且準備不同比例的混合物,如 從 1 : 9 到 9 : 1,但總蛋白質的量不變。從這些不同混合物和兩個純樣本獲得的二維凝膠可以像通常情況一樣實現均一化,能夠計算出對于感興趣樣本的特異點的回歸,正如在混合樣本中各樣品的已知比例一樣。Avid 等使用這種方法,對在正常的實驗中相同條件下點的量與蛋白濃度的線性關系進行研究。如果反應是線性的,即可對不十分顯著的差異蛋白濃度進行測定。
3.5 質變
質變,即點變量的存在與缺失,這比定量變量更容易確定。然而,有時它的界定也會比較困難,至少在處理大規模實驗時,會有一定量的數據缺失。
重復點不能在所有的凝膠都出現,因為根據定義是不可能檢測到重復的質變點。因此,最好用一致性來處理,同時考慮到這樣一個事實,即蛋白質點可以持續性地出現或缺失。最嚴格的一致性標準是認為一個蛋白質點必須在某一給定組中所有重復中都存在(處理組、基因型等) ,并在另一個 “缺失” 組中的所有重復中都缺失。但是,這個標準對于許多凝膠過于嚴格,因為實驗中存在可能的意外(如凝膠染色比其他的淺、凝膠的破損等)。
3.6 量變
定量蛋白質組學分析的目標差異可能很大,從全局分析,其興趣在于確定蛋白質變化的主要根源,確定與特殊處理相應的為數不多的蛋白質點。
定量變化可以用來分析蛋白質之間的關系,如確定核調控蛋白質的種類。一般情況,等級分類用在以下這種情況:在不同的實驗條件根據蛋白質總量將它們聚類并可視化 。通過“cluster”程序可以做到聚類的可視化。
主成分分析(PCA ),以點作為變量,以樣本作為觀察值,它能根據變量所代表蛋白質點的主要變異量使不同樣本的分布可視化(見第 17 章 )。PCA 也可以自動偵測異常凝膠,如所研究凝膠上的點卻散落在其他凝膠上(見注釋 3)。
定量變化的另一種做法是尋找與實驗(如處理、基因型)可控因素或實驗期間的其他因素(如激素劑量)明顯相關的功能蛋白質。像 PCA 這樣的全局性分析中,并不希望專門偵測到顯著變化點,因為它們不一定需要很多,而其變化相對于大多數點的變化有髙度特異性。當檢測點存在單一或多因素顯著變異時,一般選擇方差分析的方法。當兩個以上的處理進行對比,這時最好使用方差分析,而不是直接運行 t-檢驗,因為它能更好地計算剩余方差估計式(見注釋 4) 。
經過方差分析后,根據具體的生物學問題可以使用不同的比較方法。如 Dunnet 測試適用于同一控制條件下不同的處理方法進行對比,Duncan 或 Student-Newman-Keuls 測試適用于所有處理間的比較(見注釋 5) 。線性回歸適用于計算點與連續變量(如激素的劑量)之間的關系。圖 16-5顯示了選擇所有點的 SAS 編程程序,這些點顯示了在兩因素方差分析中顯著的變化及因素間的相互作用(見注釋 6)。
一般情況下,0.05 或 0.01 是統計檢驗中常用的顯著性水平。即當數據中的變化有 5% 或 1% 的概率時,這變化被認為是顯著性變化。換言之,顯著性水平是一個假陽性檢測的概率。因此,如果 0.01 顯著性水平用于 1000 個點時,可以肯定的是它們中約有 10 個是假陽性。方法之一,考慮用比較的數目分割顯著性水平( Bonferroni校正)。在目前情況下,這將導致 10-5 的顯著性水平。這樣檢測到的全部假陽性概率是 1000 點區域存在 0.01 個假陽性。這是一個保守的方法,但它降低了靈敏性,因為顯著性水平為 10-5 時,變異將非常大。使用此方法也可能丟失許多真的點。
在做多重比較時,Benjamini 和 Hochberg [3] 提出了錯誤發現率(FDR ) 的方法。這種方法的原理是要允許幾個百分點(如 5% 或 1% ) 的檢測變化是假陽性。而 Bonfenroni 校正的做法是保持 1/1000 個假陽性點的風險在 1%。而 FDR 方法是允許陽性檢測的 1% 錯誤,這種方法不是很保守,但比 Bonferroni 校正更靈敏。這是一個處于完全沒有校正(所有點測試在1% ) 和 “ 過度 ”校正(Bonfemmi 校正)之間的折衷方案。圖 16-6 顯示了依照 FDR 方法選擇顯著點的 SAS 程序。