基因體序列註解之主要內容

目前預測基因的程式雖然很多,卻沒有一種方法遠超過其他的方法。它們預測exon的成功率雖相當高,預測完整基因的努力卻不甚成功。因此需要整合性的瀏覽器,以圖形方式同時呈現各種分析結果,由人做最後的分析、判讀。目前較成功的兩套整合性顯示軟體分別是GenotatorAnnotator,前者有原作者之維護,更有電子佈告欄供使用者交換使用經驗。因此目前使用Genotator可能是較好的選擇

分析所得的原始數據可用Genotator瀏覽器做人工註解,在同時,我們使用程式將其轉換為ace格式,即可載入AceDB。不過序列在註解前必須經過品質管制,目前是以STS ( sequence tag site )來確定序列是否出現在正確的染色體上。在分析定序列核心實驗室的序列時就曾發現其中有一個原被認為在第四號染色體的BAC殖株,很可能是源自第五號染色體。為除去污染人類DNA的細菌系列,我們會先對載體序列資料庫與大腸菌的序列比對,若有90%以上相似,且超過序列長度2%的序列會被自動刪除。

標準作業程序

序列的品管

定序核心的序列以BAC ( bacterial artificial chromosome )殖株為單位,將源自同一BAC殖株的所有序列存在FTP伺服器的一個子目錄下。待有足夠長度的序列時,定序核心會以電子郵件通知生物資訊核心。在收到通知後生資核心會將指定子目錄下之各序列片段取回,以Blast程式比對載體與大腸菌序列資料庫。不含有載體或大腸菌污染的序列片段會被連接起來成為一個序列,各片段間則插入100N做區隔。這樣的序列,再加上一個說明各片段在序列中起始與結束位置的說明檔會被送回定序核心,以便送到DNA資料庫,例如DDBJGenBank登錄、存放。

這種未完成的序列在DNA資料庫中是存放在HTG ( High throughput genomic sequence )的部份。若以N相隔的各序列片段的方向未定,稱之為phase I序列,目前存放出去的序列大多屬於這一類。若方向已知則稱為phase II,此時序列片段通常較長,整個BAC序列中的空隙也較少,但錯誤率是百分之一。若整個BAC已連成一個連續的序列片段,而且錯誤率也降到萬分之一,則稱為phase III (也被稱為完稿),序列會被移到靈長類部份,而不再出現在HTG

這些沒有載體與大腸菌污染的序列,會進一步以ePCR (electronic PCR )程式比對RHDB ( radiation hybrid database )dbSTS資料庫,以標示在各序列上RHDBdbSTS地標( marker )出現的位置。因為每一個地標在遺傳圖譜上所在的位置都已知,很快就可判定所定序的BAC殖株是否落到其他染色體上或是落在其他的區域中。因為在同一BAC中平均可找到數個地標,偶有一個地標的結果出現異常的位置,也不會驟下結論,而會去檢查FISH ( fluorescence in situ hybridization )的結果,以確定BAC殖株的位置。

序列的分析

沒有污染的序列在做ePCR的同時,會做另一系列的分析。首先序列中已知的重複序列會被遮蔽 ( mask ),再做BlastxBlastn的分析。Blastx是比對GenPept資料庫,以確定序列中是否有和已知蛋白質相同或相似的片段。因為真核生物的基因是不連續的,若同一蛋白質序列的不同部份,會出現在同一BAC的基因體序列中的不同部份,或出現在相鄰的BAC上,則可能表示有基因存在。因為一個胺基酸會對應到多個遺傳密碼,蛋白質序列相同,並不代表DNA序列相同。在發現某序列轉譯後的序列與資料庫中蛋白質相同時,應進一步檢視DNA序列。若每一片段與人類cDNA序列之排比結果,都有99%以上相同的DNA序列,則表示這一BAC殖株中有已知的基因。若蛋白質與轉譯的人類基因體序列相似,卻不相同,或是蛋白質序列非常相似,核酸序列卻有較大的差異,這表示在人類基因體上有基因可能和已知的基因相似。所以這類型的基因稱之為相關的基因

在核酸序列的比對上,訊號與雜訊比例本來就高於蛋白質的比對,不易訂定基因相似的標準。因此,對於沒有轉譯資料的核酸序列,我們的目標是尋找相似性高於90%以上的人類EST片段。為區分無意義的基因片段,與可能的基因,我們希望在同一BAC或相鄰的BAC中看到源自同一基因的EST序列。因為UniGene資料庫將可能源自同一基因的EST片段收集成群,並賦予同一辨識碼,比對人類UniGene資料庫,即可由辨識碼上看到相鄰的,與EST相似的序列間之關係。如果有兩個以上屬於同一個UniGene群的EST序列出現在同一BAC中,或出現在相鄰的BAC上,則顯示可能有一個未知的基因會表現為mRNA,因為這種類型的基因在目前並無實驗證明它能轉譯為具功能的蛋白質,所以稱之為預測的基因。若只能找到一個與EST非常相似( > 99%相同),而且相似區域也近於EST全長的基因體序列,則須檢視基因預測的結果。如果有程式預測到的基因,會被列為EST homolog。因為只要在啟動子部份或編碼( coding )區內,只要有一個鹼基的差異即可能影響基因表現,因此在結果中所列出的註解會特別標註序列的性質,讓使用資料者知道判讀的原則。在序列初稿階段所判斷之已知基因,相關基因與預測基因,皆有可能在完稿時被判定為偽基因( pseudo gene )

基因預測

目前分析基因體序列的難處在於預測的工具還不夠好。雖然使用神經網路或隱藏式馬可夫模型(Hidden Markov Model, HMM)的方式,讓基因預測的正確率高達80%以上,可是若序列中有突變造成的讀架改變時,則正確率馬上降到30~40%人類基因的預測方面GenScanFgenesH這兩個預測性能較好的基因預測軟體,因為這類程式對序列品質非常敏感,只能分析完稿序列。

在目前將其區分為含資料庫序列與不含資料庫序列兩類,並針對後者設計引子(數據未顯示),希望確認是否有可以表現的基因。

此外,這種類型的預測,只能區分外子(exon)或內子(intron),卻不能直接指出那一些外子是屬於同一個基因的。因此一個成功的基因預測,必須將各種不同的序列分析結果綜合在一起。例如許多表現序列標幟(Expressed sequence Tag, EST)都是由3’端開始的,因此有助於決定一個基因的3’端。在端點前的各外子﹐若都與某個cDNA同源,那麼5’端的位置也有可能被猜到。好在美國癌症基因體解析計劃(Cancer Genome Anatomy Project, CGAP)的進行,使EST序列的數目仍快速地成長,否則這種利用EST協助基因判讀的方法,將有其先天的限制。

此外其他的分析結果也有助於改善預測的品質。例如重複序列通常與基因是相斥的,若預測的外子與重複序列重疊,則應深入檢查外子附近是否有基因剪接的共有序列(consensus sequence),以增加或降低我們對預測的信心。

事實上預測外子位置的程式也有許多種,如果不同的預測程式都預測某一區域可能有外子存在,則正確的機率很高,若預測的結果分歧,則有賴其他資料協助判定結果。在EST序列外,另一個有用的工具是蛋白質序列。在沒有另類(alternative)基因剪接形式存在時,外子的端點應與和蛋白質序列的配合(match)範圍相似。有時EST能顯示產生另類基因剪接點的位置,因此綜合不同的結果一起做判斷才能增加預測結果的正確性。

目前已有一些工具,例如Genotator,可將不同分析的結果,以圖形的方式併呈給使用者做判斷。此法雖然有助於人的判讀,減少了許多交互參照不同文字檔案的時間,卻仍需人的判讀。理想的作法應是用電腦自動根據人的判讀方式,比較不同檔案的資料,然後再將較不確定的區域標示在圖上,這樣人就可集中心力去處理這些不確定的區域。日後重新分析此段已分析過序列時,則應先自動濾除與上次比對相同的區域,只列出不同的區域供人參考。若新的資料使判斷的可信度高到某一水準之上時,甚至應自動更新資料庫的內容,而不要人的參與。