GCG 環境下寫模組樣式(pattern) 的規則

  1. 胺基酸用一個字母的標準代碼(one-letter code) 表示。
  2. 括號中若有多個胺基酸以逗點隔開,則代表該位置可能有這幾個胺基酸存在,例如 (F,V) 表示在此位置可能是 Phe ValX 是代表任意的胺基酸。
  3. 胺基酸後若有大括號,則代表此胺基酸重覆的次數。一般而言,大括號中有兩個數字以逗點隔開,以表示一個範圍的起點與終點,例如 CX24表示在 Cys 後有 24 個任意的胺基酸,然後再接一個 Cys。若大括號中第一個數字不寫,則表示由零個開始,所以{ ,404代表同樣的意義。若大括號中第二個數字不寫,表示在 GCG 中可接受的最大值 350,000。也就是2,}2350,000的意義相同。若前後兩個數字相等,例如1212就表示剛好重覆那麼多次。

要讓 GCG 程式直接讀取你所寫的模組樣式,必須將其寫成一定的格式。事實上其格式與紀錄限制酵素切割位置的檔案格式相同,其中最重要的三項資訊是模組樣式的名字、平移(offset),與模組樣式。只要用空格隔開它們即可,並不需要填在固定的位置上。其中平移一項主要是用來指定輸出結果時,標出的位置與所給定序列間之距離,通常都用1。例如若 zf 出現在某序列的第 100 號胺基酸,當平移值為 5 時,輸出檔就會印出 105 而不是印 100。一個檔案中可列多個模組樣式,每個模組樣式佔一列,若想在模組樣式後在加上附註,只需在附註前加 "!",程式讀到驚歎號,就會忽略其後的文字,而繼續讀下一列。

範例1 請利用 vi 編輯器將 Berg 所寫的模組樣式表示為 GCG 的格式

%more pattern.dat
Patterns of metal-binding domains described inBerg, J.M. (1986) Potential metal-binding domains in nucleic acidbinding proteins. Science 232, 485-487
Name Offset Pattern ..
C2H2 1 CX{2,4}CX{2,15}HX{2,4}H
C2C2 1 CX{2,4}CX{2,15}CX{2,4}C
H2C2 1 HX{2,4}HX{2,15}CX{2,4}C

若以 C2H2 為例,寫出的模組樣式表示在 Cys 後有二到四個任何的胺基酸,然後再接 Cys;在這 Cys 與下一個守舊的 His 之間,有二到十五個任何的胺基酸;在His與下一個守舊的 His 之間,有二到四個任何的胺基酸。

練習 試根據圖1,將 TFIIIA 中各重覆序列的共有序列用符號表示出來。

Answer:
Patterns summarized from the alignment of zinc finger repeats in TFIIIA. (Based on the alignment in demo ?)
Name Offset Pattern ..
TFIIIA 1 CX{2,5}CX{12,12}HX{2,4}H

Last updated on 11/25/01