GCG程式: Compare(請參照 DotPlot)

重覆序列的意義

重覆序列的尋找

在基因體 DNA、傳訊者核糖核酸、或蛋白質上重覆出現的序列,通常是一些具有功能的區域。英國 MRC 實驗室的 McLachlan 對蛋白質中重覆出現的序列 (repeats) 很感興趣,因此他注意到在已發表的 TFIIIA 序列中似乎有一些重覆的序列。為了進一步確認這觀察,他就採用點矩陣 (dot matrix) 運算法 (algorithm) 來尋找這些重覆區域的位置。

Compare 這程式有兩種運算的方式,一個是較快的 word match 法,較不靈敏;另一是慢卻靈敏的window/stringency 法。在此入門課程中不討論運算法,僅建議大家使用 window/ stringency 法。在提出鋅指結構的原始文獻 (Miller et al, 1985) 中,雖不是利用 GCG 套組做的,這兩個程式卻可達到同樣的目的,範例1 即是利用此法尋找 TFIIIA 中的重覆序列。

此處的策略是在縱軸與橫軸放置同樣的序列,希望能找到一些與對角線平行的短線。使用圖形分析的好處是一次可看到整個蛋白質序列1344的分析結果,不像點矩陣的討論中只看到15個核甘酸的比較而已。

範例1 利用點矩陣法來尋找 TFIIIA 中的重覆序列

%compare
Compare compares two protein or nucleic acid sequences and creates a
file of the points of similarity between them for plotting with
DotPlot. Compare finds the points using either a window/stringency or
a word match criterion. The word comparison is 1,000 times faster than the window/stringency comparison, but somewhat less sensitive.
COMPARE what horizontal sequence ? tf3a.pro
Begin (* 1 *) ?
End (* 344 *) ?
to what vertical sequence (* tf3a.pro *) ?
Begin (* 1 *) ?
End (* 344 *) ?
What comparison window size (* 30 *) ?
What stringency (* 11.0 *) ?
What should I call the output file (* tf3a.pnt *) ?
Number of points: 4727 Writing ..........

 

在這個範例中,有兩個特別的名詞會影響觀察到的結果,一個是 Window size。另一個是 stringency。前者的主要目的是希望表現一個區域的平均特性,後者相當於一個可濾掉雜訊的過濾器。在 Window size 接近重覆區域的大小時,訊號最能真實反應重覆區域間的相似性,問題是做這類型的分析時並不知到相似的區域有多長,通常必須試用數個不同的條件。鋅指的長度大約為30個胺基酸,因此在範例中以30Window 大小是很恰當的。

因為有些胺基酸性質相似,在演化的過程中可互相置換而不影響功能,因此比較蛋白質序列時所用的計分方式和核酸序列的不同。目前較常用的方式是 PAM250 矩陣,因此在使用 PAM250 時,每一點的得分都至少是1。程式內部會根據你所選取的 window size 建議一個 stringency。想瞭解這名詞的意義,可將點矩陣中每一格的得分視為在 Z 軸方向的高度,而每一格的分數則是以這一格為中心,以 Window 大小為範圍的數個沿對角線方向的格子的平均值。 Strigency 就相當於以垂直於 Z 軸的不同平面切割這三維空間的立體圖,而比平面高的那些點就會紀錄在 dotplot 所繪出的圖上,根據這種想法,stringency 越高,能看到的點與線就越少。在參數設定中,我們將可看到不同 stringency 的效果。

Return to comparisons or multiple sequence alignment

[ 運算法 | 參數設定 | 結果分析 | 程式類別 | 個案分析 | 標準分析 ]

Last updated on 11/23/01