表現序列標幟 (Expressed sequence tag, EST)

將由細胞之中抽出的 mRNA,以隨機引子或是含有 oligo(dT) 的引子進行 RT-PCR,再用適當的限制酵素切割,進行選殖。對已得到的各個菌株加以整理,以有系統的方式,對每一個菌株的插入片段,進行單一次自動化定序 (single-pass automatic sequencing),所得到序列即被稱為表現序列標幟。因為只進行單向與單一次的定序,並未經過再一次的確認,而且一些無法由機器自動判斷的區域,可能也未以人工的方式予以校正,因此這種序列的特徵之一,就是含有不少的錯誤,比如說可能會含有不少鹼基的插入、刪除、以及不明確性,而且這種現象在愈接序列資料的 3端愈明顯,因此在做序列比對時必須慎選程式使用。

1 EST序列的產生

除此之外,在選殖之時,表現量多的基因較容易被選殖到,表現量較少的基因則較不容易;然而表現量少的基因,有可能具有關鍵性的功能,這些基因是生命科學家特別感興趣的。要解決這個問題,一方面在選殖之時要進行常規化的處理(normalization),另一方面則要以量取勝,也就是產生大量的 EST

如果比較正常細胞與不正常細胞之間 EST 的質和量上的差異,或許可以找到產生病變的原因,做為開發新藥的契機,或是藉此改良品種,因此 EST 是非常具商業價值的。由於應用的層面有利可圖,所以許多生物科技公司分別開始有系統地決定 EST 的序列,以 Merck 公司支持的研究計劃為例,每週大約產生四千五百個 EST。在基因資料庫之中,己將所有的 EST 資料獨立成為 dbESTdbEST 增長的速度非常的快(如圖表 1所示),快速增長的 dbEST 已含有大約一百五十萬個 EST,已佔基因資料庫序列總數的百分之七十,若以鹼基總長度來計算,也超過百分之三十(根據 NCBI-GenBank Flat File Release 107.0 Release Notes 計算得到的數值,資料未顯示。可以用 ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt 的方式取回最新資料)

2 dbEST 所含有的序列總數和全部 GenBank EST 序列總數的比較圖,1995 年之前的資料,是根據Boguski, M. S.1995 年所發表的資料,1997 年、1998 年的數據,是來自 GenBank Release notes。在1995年之後,EST 的序列總數便超過了全部序列總數的一半以上。

基因序列資料庫最吸引人的就是它巨大的資料量,但是由於在成立之時沒有經過良好的規劃,以致於累積了許多的重複序列資料,以致於無法很容易的由其中選出想要的資料。至於 EST 資料庫,這個問題就更嚴重了,因為EST的來源眾多,而且數量很大,可能具有高度的重複性,不同的 EST 可能對應至相近的實際基因體位置,不容易分辨在這個區域中基因的真實數目及位置。

因此,在未經整理的情況下,很難以直接使用這些 EST 資料,做為各個人類獨特基因的標幟。美國國家衛生院所屬的國家生物科技資訊中心 (National Center of Biotechnology Information,簡稱為 NCBI)為了要解決這個問題,便進行了一個實驗性質的計畫,目標是將重複的序列資訊合併,以造成一個不含多餘性序列資訊(non-redundant)的資料庫,稱之為 UniGene

- 黃彥華 著

Last updated on 08/30/01