根據 Pearson 的建議,在期望值低於 0.02 以下的序列,可認為是與查詢序列同源的(homologous)。若所找到的序列的期望值都高於 0.02,就必須增加程式的靈敏度,也就是降低 ktup 值後再搜尋一次。要瞭解 ktup如何影響靈敏度,就必須由搜尋速度與靈敏度的關係談起。
圖1 (need to be reduced)
在將 ktup 調到「1」之後,若可以看到期望值小於 0.02 的序列,而且又無低複雜性的或重覆的序列存在,這些序列就很可能與查詢序列同源。事實上「連接」這個步驟的效果很容易由比較各種不同的得分看出來,在連接後所得的「initn」通常都會比連接前的「init1」大;可是經過做最佳化之後的「opt」,則有可能小於「init1」。「opt」小於「init1」代表連接過程有不妥當之處。 Pearson 的建議是在發現完全不相干的序列有小於0.2的期望值時,就考慮增大「Gapweight」,這樣可使期望值小於一的不相干序列的數目下降數倍。因為罰分不夠重時,可能會將不相干的序列和同源的區域接( join ) 在一起,反而降低了「opt」與 z-score。
表1 參數 ktup 的設定對 FastA 輸出的影響
Statistics |
ktup=2 |
ktup=1 |
Comments |
scores saved that exceeded 77 | 1555 |
1843 |
|
optimizations performed | 49745 |
50877 |
|
Joining threshold | 37 |
43 |
|
optimization threshold | 25 |
31 |
|
opt. width | 16 |
32 |
|
p43 init1 | 281 |
324 |
|
initn | 432 |
634 |
|
opt | 665 |
665 |
|
z-score | 771.2 |
812.9 |
|
E(58538) | 2.2e-36 |
1.1e-38 |
|
% identity | 33.7 |
33.7 |
|
aa overlap | 294 |
294 |
在將 ktup 值降為「1」後,可發現在整體的統計數字上,會存較多序列的得分,也會對較多之對角線作最佳並列分析,因此在做連接及最佳並列分析時由程式自動調整之門檻值也都較高。這些都表示程式的靈敏度提高了。若針對某一找到的序列,例如 Xenopus 的 p43 蛋白質,來做分析,會發現 init1 與 initn 都大幅度提高,這表示這一蛋白質比在用 ktup = 2 時更容易通過 cutoff 值,唯有先通過 cutoff 才有機會進行並列分析,求出 opt 。第一階段利用混亂編碼的方法找尋與延伸相似片段時,如果 ktup=2,則可找到一個範圍從79 到 86 的片段(圖2A),它的兩側都是連續兩個相同的核甘酸。若 ktup=1 則邊緣部份只需一個核甘酸,所以相似片段的範圍較大(圖2B,從 67 到 93),得分較高,也就是比較容易通過門檻而被留下來。
圖2 不同 ktup 值時,第一階段所找到的片段長度不同。A. ktup=2; B. ktup=1
事實上只要一旦片段超過門檻,不論 ktup 是多少,最佳的序列並列是完全一樣的(亦可由 % identity 等數值看出)。問題是同樣的 opt ,為何會有不同的 z-score 呢?(比較圖2 A與 B)這是因為在做統計分析之前必須先剔除得分高的序列,這樣才能將資料庫中的序列當做不相干的序列。因為參考的序列數目受 ktup 影響,連帶的也影響 z-score 的計算。
在此要特別強調,在序列相似時,不論選用哪一種常用的計分系統(PAM250, Blosum50,…等)或是不同的插入空隙罰分,所得的期望值變異都不大,不太可能誤判,所以統計的數據可作為支持同源性的證據。可是對於親緣關係較遠的序列而言,參數的改變影響很大,所以統計數字遠不如實驗數據可靠。一般而言,只能用統計數字證明兩序列的同源性,而能不用統計數字證明兩個序列沒有同源性。
在利用插入空隙罰分(gap insersion penalty),降低不相干序列之得分後,若仍有一些相似與否不很確定的序列時,可用隨機重排(random shuffling) 的序列來測試而找到的序列是否有「統計」上的相關性。其目的是要排除序列組成所可能有的些許效應,因此將查詢序列隨機重排,產生數百種隨機序列,再將這些序列當成資料庫做比對,計算各相似序列的期望值。在此隨機資料庫中最高分的相似序列之期望值,大於資料庫查詢時所算出的期望值,則表示此相似序列有統計上的意義 。對大部份的應用而言,沒有必要做此分析,所以 GCG 並沒有支援此功能。
[ GCG程式 | 運算法 | 結果分析 | 程式類別 | 個案分析 | 標準分析 ]
Last updated on 11/23/01