密碼使用頻率
因為胺基酸的數目小於遺傳密碼的個數,有幾個遺傳密碼會對應到一個胺基酸,對同一個胺基酸言,因為不同
tRNA 基因在不同生物的表現量不同所以喜歡使用的密碼並不完全相同。例如下表中顯示
Gly 有四個不同的密碼,大腸桿菌中大量表現的蛋白質使用
GGU
的頻率較高 (59%),而使用 GGA 的頻率卻很低 (0%)。這些頻率表是根據
Genbank 中不同生物的序列而統計出來的,在
GCG 環境下可用 Fetch
程式取得頻率使用表,以下是 Ecohigh.cod
檔案的一小部份:
表1 節錄自GenRunData: ecohigh.cod
- !!CODON_FREQUENCY
1.0
- Codon usage for
enteric bacterial (highly expressed) genes 7/19/83
- AmAcid Codon Number /1000
Fraction ..
Gly |
GGG
|
13.00
|
1.89
|
0.02 |
Gly |
GGA
|
3.00
|
0.44
|
0.00 |
Gly |
GGU
|
365.00
|
52.99
|
0.59 |
Gly |
GGC
|
238.00
|
34.55
|
0.38 |
----- |
|
|
|
|
Pro |
CC C |
1.00 |
0.15 |
0.00 |
-
GGG中計算 Fraction 的方法 (以 Gly GGG 為例): Fraction = 1.89 / (1.89 + 0.44 +
52.99 + 34.55) = 0.02
|
若與取自「http://www.dna.affrc.go.jp/~nakamura/CUTG.html」的 Xenopus
laevis
的頻率表比較,可注意到此表中所統計的密碼數目遠高於
GCG
提供的頻率表,其密碼安排的次序也不同,而且只列出出現的頻率而未加註使用的比例
(Fraction)。在近期內,該網站將提供 GCG
格式的頻率表,屆時將可直接在 GCG
環境下使用各種不同生物的頻率表。使用網站上的資料的好處是它不斷地依
Genbank
現有的序列更新頻率表,因此所得的使用頻率比較正確。
表2 節錄自網際網路上取得的頻率表
- Xenopus laevis [gbvrt]:
974 CDS's (415276 codons)
- --------------------------------------------------------------------------------
- fields: [triplet]
[amino acid] [frequency: per thousand] ([number])
- --------------------------------------------------------------------------------
- Comming soon: GCG
format
- --------------------------------------------------------------------------------
- UUU F 19.2( 7969) UCU S
19.2( 7972) UAU Y 14.9( 6182) UGU C 10.8( 4465)
- ----- ----- ----- -----
- GUU V 15.5( 6424) GCU A
21.4( 8893) GAU D 29.6( 12305) GGU G 14.4( 5995)
- GUC V 12.3( 5120) GCC A
18.2( 7565) GAC D 23.5 ( 9749) GGC G 15.4( 6413)
- GUA V 10.0( 4163) GCA A
19.5( 8097) GAA E 36.0( 14970) GGA G 22.0( 9152)
- GUG V 21.1( 8745) GCG A
4.5 ( 1856) GAG E 35.0( 14541) GGG G 13.2( 5466)
- --------------------------------------------------------------------------------
- Coding GC 47.69% 1st
letter GC 52.64% 2nd letter GC 41.15% 3rd letter GC
49.28%
- Genetic code 1:
Standard
- --------------------------------------------------------------------------------
- Codon usage for each
CDS (format)
- --------------------------------------------------------------------------------
在表3中顯示了
E. coli, H. pylori 的密碼使用頻率。其中 H. pylori 的部份又分別兩欄,左欄是取三個與資料庫中序列有相似性的
orf ,用
CodonFrequency 程式所算出的結果,中欄是取 1700 多個在
GenBank 中被註解成為 H. pylori
的基因所統計出的結果。結果顯示,只取三個 orf
所算出的密碼使用頻率比較像 H. pylori
的使用頻率,而不像大腸菌的使用頻率(右欄)。這顯示取少數基因來訓練模型或是計算密碼使用頻率,做進一步的序列分析是一種可行的策略。
由此可看出,做基因的註解是一個遞迴 (recursive)
的過程,在係數或分析微調 (refine)
後,再分析同樣的區域,會得到更確定的結果。
表3 E. coli 與 H.
pylori
的密碼使用頻率表摘錄 |
表4
用Correspond 程式比較的結果 |
AmAcid
|
Codon
|
H.
pylori
|
H.
pylori
|
E.
coli
|
|
|
(3 genes)
|
(>1700
genes)
|
|
Gly |
GGG |
20.30
|
21.20
|
1.89
|
Gly |
GGA |
5.92
|
6.46
|
0.44
|
Gly |
GGT |
18.61
|
10.05
|
52.99
|
Gly |
GGC |
40.61
|
20.55
|
34.55
|
|
|
|
|
|
Glu |
GAG |
9.31
|
18.03
|
15.68
|
Glu |
GAA |
43.15
|
50.08
|
57.20
|
Asp |
GAT |
32.99
|
34.98
|
21.63
|
Asp |
GAC |
14.38
|
13.15
|
43.26
|
|
|
|
|
|
Val |
GTG |
34.69
|
27.20
|
13.50
|
Val |
GTA |
12.69
|
5.97
|
21.20
|
Val |
GTT |
14.38
|
15.49
|
41.96
|
Val |
GTC |
5.92
|
7.74
|
5.52
|
--- |
--- |
---
|
---
|
---
|
Ala |
GCG |
27.92
|
20.11
|
23.37
|
Ala |
GCA |
7.61
|
7.68
|
25.12
|
Ala |
GCT |
42.30
|
27.20
|
30.78
|
Ala |
GCC |
20.30
|
13.78
|
9.00
|
|
|
Last updated on 11/23/01