UniGene (Unique Gene Sequence Collection)

建立方法

UniGene 是以自動化的方式,對於每一個新進到 Genbank 的序列,進行序列相似性分析,如果可以找到可能是來自於同一個基因的基因組(cluster),則將此序列歸入這一個基因組;如果找不到,則成立一個新的基因組。據估計,人類的基因約有八萬個至十萬個左右。而在 UniGene 的所有人類序列之中,經過上述方式加以分組之後,在 19986月,已得到超過四萬三千個獨特的基因組(unique gene clusters),其中大約六千餘個具有已知的基因。

意義

以分類方式所產生的 UniGene 資料庫,每一群序列(即包含了 EST、及 mRNA 序列的基因組),共同代表一種獨特的人類基因。利用這種經過分類整理的資訊,便較直接使用數量大而資訊含量少的個別 EST 資料要來得有效率。可以預見到在人類基因體計畫完成之時,UniGene 的基因組資料,將對於各個基因在染色體上的定位有很大的幫助。

統計資料

如果由 UniGene 的統計資料來看,就可以發現分佈不均的 EST 資料,可以被運用來輔助決定基因全序列。如表 1所示,雖然有高達 9930 個基因組只含有一個序列,有些基因組則含有較多的序列數,甚至有 4 個基因組含有的序列數在 2049~4096 之間。對於含 EST 數目較多的基因組而言,很可能可以使用適當的序列組合工具,EST 資料組合出基因全序列。此外,基因組所含 EST 數目較多時,EST 資料之中,就較有可能含有同一基因的不同剪接型式。

1. UniGene 基因組資料分類統計表(Statistics for UniGene build uploaded on: Tue Jun 23 1998)。由 http://www.ncbi.nlm.nih.gov/UniGene/Hs.stats.shtml 取得,加以整理所得到的基因組內序列數目和基因組數對照表,基因組內序列數目愈大,則基因組的數目愈少,組內序列總數為 1 的基因組最多,共計有 9930 組。

Cluster size Number of clusters   Cluster size Number of clusters
1 9930   65-128 1559
2 7274   129-256 490
3-4 7740   257-512 162
5-8 6043   513-1024 50
9-16 4524   1025-2048 13
17-32 3939   2049-4096 4
33-64 2914      

UniGene資料庫的使用

 

- 黃彥華 著

Last updated on 11/26/01