Similarity

具親緣關係的或同源的蛋白質,為了維持其功能,即使序列會產生改變,結構上卻非常相似。至於序列是否相似,則視演化時間的長短而定。傳統上決定同源性( homology) 的方式,是透過資料庫查詢來尋找相似的序列,並藉此推敲未知蛋白質的功能。此法在對同源性高的蛋白質相當有效,但對親源關係遠的蛋白質而言,就很難區辨其相似性( similarity) 是否代表同源性。

Protein

因為不同蛋白質的演化速率不同。例如不同生物的組織蛋白 ( histone) 均很相似,但是纖維元蛋白 ( fribronogen) 的變異則非常大;因此必須有一個共同的比較標準。所謂的 PAM 單位,就是指在 100 個可能發生置換的位置上發生一個被接受(合於轉換規則)之單點突變的次數。對不同的蛋白質而言,產生一次置換所需的時間可能是不同的,但是若以 PAM 為時間的單位,則不論是那一種蛋白質,產生一定變異所需的 PAM 的單位則是固定的。其關係如圖1 所示。此曲線在快速上升後會逐漸趨向一定值,其漸近線約為 94% 的差異。為什麼兩個蛋白質不可能 100% 不同呢﹖這是因為胺基酸在變成其它胺基酸後還有機會變回來。圖中橫軸的數值是 800PAM 單位,這表示在 100 個胺基酸的序列中會發生 800 次置換,平均每一個位置會發生 8 次置換。而同一類的胺基酸數目不多,所以很容易變回原來的胺基酸。此外,兩個序列的某一位置亦可能同時變為某一胺基酸。因此在置換率增大時,兩序列的差異趨於穩定而不再增加。

圖1 序列差異的百分比與演化距離的關係 (圖有連結)

根據統計分析可以歸納出一些簡單的原則作為判斷有無親緣關係的參考:一個 100 個胺基酸以上的序列,在經過最佳化的排列後,若有 25% 的胺基酸完全相同,則很可能是相關的序列。若是只有 15 -25% 的序列相同,則必須用統計方法求可信度,當然最好還是以實驗證明其是否相關。若只有少於 15% 的胺基酸相同,則不論序列多長 這兩序列都不太可能有關。一般而言,兩個並列好的蛋白質序列中,相同的胺基酸之比在 25% 以上可確定有同源性,在 15% 以下大概沒有同源性,若介於 15 -25% 之間則只能當做參考,必須靠實驗做進一步的驗證。可是在仔細去看並列分析結果之前,可利用 FastA 的期望值,或 Blast 之機率小於 0.02 做為一個指標,來挑選可能有趣的序列。

Nucleic acid - yet to be implemented

standard deviation - yet to be implemented

Last updated on 11/21/01