密碼使用頻率

因為胺基酸的數目小於遺傳密碼的個數,有幾個遺傳密碼會對應到一個胺基酸,對同一個胺基酸言,因為不同 tRNA 基因在不同生物的表現量不同所以喜歡使用的密碼並不完全相同。例如下表中顯示 Gly 有四個不同的密碼,大腸桿菌中大量表現的蛋白質使用 GGU 的頻率較高 (59%),而使用 GGA 的頻率卻很低 (0%)。這些頻率表是根據 Genbank 中不同生物的序列而統計出來的,在 GCG 環境下可用 Fetch 程式取得頻率使用表,以下是 Ecohigh.cod 檔案的一小部份:

1 節錄自GenRunData: ecohigh.cod

!!CODON_FREQUENCY 1.0
Codon usage for enteric bacterial (highly expressed) genes 7/19/83
AmAcid Codon Number /1000 Fraction ..
Gly GGG 13.00 1.89 0.02
Gly GGA 3.00 0.44 0.00
Gly GGU 365.00 52.99 0.59
Gly GGC 238.00 34.55 0.38
-----        
Pro CC C 1.00 0.15 0.00
 
GGG中計算 Fraction 的方法 (以 Gly GGG 為例):

Fraction = 1.89 / (1.89 + 0.44 + 52.99 + 34.55) = 0.02

若與取自http://www.dna.affrc.go.jp/~nakamura/CUTG.htmlXenopus laevis 的頻率表比較,可注意到此表中所統計的密碼數目遠高於 GCG 提供的頻率表,其密碼安排的次序也不同,而且只列出出現的頻率而未加註使用的比例 (Fraction)。在近期內,該網站將提供 GCG 格式的頻率表,屆時將可直接在 GCG 環境下使用各種不同生物的頻率表。使用網站上的資料的好處是它不斷地依 Genbank 現有的序列更新頻率表,因此所得的使用頻率比較正確。

2 節錄自網際網路上取得的頻率表

Xenopus laevis [gbvrt]: 974 CDS's (415276 codons)
--------------------------------------------------------------------------------
fields: [triplet] [amino acid] [frequency: per thousand] ([number])
--------------------------------------------------------------------------------
Comming soon: GCG format
--------------------------------------------------------------------------------
UUU F 19.2( 7969) UCU S 19.2( 7972) UAU Y 14.9( 6182) UGU C 10.8( 4465)
----- ----- ----- -----
GUU V 15.5( 6424) GCU A 21.4( 8893) GAU D 29.6( 12305) GGU G 14.4( 5995)
GUC V 12.3( 5120) GCC A 18.2( 7565) GAC D 23.5 ( 9749) GGC G 15.4( 6413)
GUA V 10.0( 4163) GCA A 19.5( 8097) GAA E 36.0( 14970) GGA G 22.0( 9152)
GUG V 21.1( 8745) GCG A 4.5 ( 1856) GAG E 35.0( 14541) GGG G 13.2( 5466)
--------------------------------------------------------------------------------
Coding GC 47.69% 1st letter GC 52.64% 2nd letter GC 41.15% 3rd letter GC 49.28%
Genetic code 1: Standard
--------------------------------------------------------------------------------
Codon usage for each CDS (format)
--------------------------------------------------------------------------------

在表3中顯示了 E. coli, H. pylori 的密碼使用頻率。其中 H. pylori 的部份又分別兩欄,左欄是取三個與資料庫中序列有相似性的 orf ,用 CodonFrequency 程式所算出的結果,中欄是取 1700 多個在 GenBank 中被註解成為 H. pylori 的基因所統計出的結果。結果顯示,只取三個 orf 所算出的密碼使用頻率比較像 H. pylori 的使用頻率,而不像大腸菌的使用頻率(右欄)。這顯示取少數基因來訓練模型或是計算密碼使用頻率,做進一步的序列分析是一種可行的策略。 由此可看出,做基因的註解是一個遞迴 (recursive) 的過程,在係數或分析微調 (refine) 後,再分析同樣的區域,會得到更確定的結果。

3 E. coliH. pylori 的密碼使用頻率表摘錄 4Correspond 程式比較的結果

AmAcid

Codon

H. pylori

H. pylori

E. coli

   

(3 genes)

(>1700 genes)

 
Gly GGG

20.30

21.20

1.89

Gly GGA

5.92

6.46

0.44

Gly GGT

18.61

10.05

52.99

Gly GGC

40.61

20.55

34.55

         
Glu GAG

9.31

18.03

15.68

Glu GAA

43.15

50.08

57.20

Asp GAT

32.99

34.98

21.63

Asp GAC

14.38

13.15

43.26

         
Val GTG

34.69

27.20

13.50

Val GTA

12.69

5.97

21.20

Val GTT

14.38

15.49

41.96

Val GTC

5.92

7.74

5.52

--- ---

---

---

---

Ala GCG

27.92

20.11

23.37

Ala GCA

7.61

7.68

25.12

Ala GCT

42.30

27.20

30.78

Ala GCC

20.30

13.78

9.00

 

Last updated on 11/23/01