UniGene 是以自動化的方式,對於每一個新進到 Genbank 的序列,進行序列相似性分析,如果可以找到可能是來自於同一個基因的基因組(cluster),則將此序列歸入這一個基因組;如果找不到,則成立一個新的基因組。據估計,人類的基因約有八萬個至十萬個左右。而在 UniGene 的所有人類序列之中,經過上述方式加以分組之後,在 1998年 6月,已得到超過四萬三千個獨特的基因組(unique gene clusters),其中大約六千餘個具有已知的基因。
以分類方式所產生的 UniGene 資料庫,每一群序列(即包含了 EST、及 mRNA 序列的基因組),共同代表一種獨特的人類基因。利用這種經過分類整理的資訊,便較直接使用數量大而資訊含量少的個別 EST 資料要來得有效率。可以預見到在人類基因體計畫完成之時,UniGene 的基因組資料,將對於各個基因在染色體上的定位有很大的幫助。
如果由 UniGene 的統計資料來看,就可以發現分佈不均的 EST 資料,可以被運用來輔助決定基因全序列。如表 1所示,雖然有高達 9930 個基因組只含有一個序列,有些基因組則含有較多的序列數,甚至有 4 個基因組含有的序列數在 2049~4096 之間。對於含 EST 數目較多的基因組而言,很可能可以使用適當的序列組合工具,以 EST 資料組合出基因全序列。此外,基因組所含 EST 數目較多時,EST 資料之中,就較有可能含有同一基因的不同剪接型式。
表 1. UniGene 基因組資料分類統計表(Statistics for UniGene build uploaded on: Tue Jun 23 1998)。由 http://www.ncbi.nlm.nih.gov/UniGene/Hs.stats.shtml 取得,加以整理所得到的基因組內序列數目和基因組數對照表,基因組內序列數目愈大,則基因組的數目愈少,組內序列總數為 1 的基因組最多,共計有 9930 組。
| Cluster size | Number of clusters | Cluster size | Number of clusters | |
| 1 | 9930 | 65-128 | 1559 | |
| 2 | 7274 | 129-256 | 490 | |
| 3-4 | 7740 | 257-512 | 162 | |
| 5-8 | 6043 | 513-1024 | 50 | |
| 9-16 | 4524 | 1025-2048 | 13 | |
| 17-32 | 3939 | 2049-4096 | 4 | |
| 33-64 | 2914 |
- 黃彥華 著
Last updated on 11/26/01