尋找基因的策略簡介

尋找基因最簡單的方式是由分析開放讀架著手,可是最長的開放讀架並不見得真的可以轉譯出蛋白質。於是有人嘗試檢視各 orf 附近是否有一些訊號,例如核糖體接合位置、啟動子、轉錄因子接合位置等模組樣式。不過這種方法的成功率並不高,因為辨識模組樣式的方法還不夠理想,會預測到許多偽陽性(false positive)的訊號,以至於干擾轉譯區的判定。有人因此嘗試以序列的內涵(content),來區分轉譯區與未轉譯區。例如遺傳密碼的第三個位置 GC 含量一般較高。此外還可利用其他的一些統計方法來區辨轉譯區與非轉譯區。這種預測方式的成功率目前比尋找 orf 附近之訊號的預測成功率高,當模組樣式的辨識技術改進時,或可綜合這兩種方式,以改善目前的預測方法。

程式的比較

Package Program Codon Freq Output Size of orf Assignment Platform Comments
GCG TestCode no need Graphics - manual UNIX  
  CodonPreference user provided Graphics - manual UNIX  
  Map no need Text can be specified manual UNIX  
GCG/SeqWeb Frames user provided Graphics - manual Web or UNIX  
GenWeb GeneHunt no need   not relavant automatic Web or UNIX  
Internet WebGeneMark WebGeneMarkHMM no need G & T not relavant automatic Web Euk / Pro
  GeneID no need Text not relavant automatic E-mail Pro
  Grail no need   not relavant automatic   Euk
EMBOSS PlotORF no need Graphics - automatic Web or UNIX  
  PrettySeq need Text - automatic Web or UNIX  
  ShowORF no need Text - automatic Web or UNIX  

Last updated on 11/27/01