計畫說明

[ Course schedule | Groups and accounts | Proj_result | POST | Idg ]

進行方式

每組將研究一段指定的序列,希望同組學員一起討論分析的策略,再練習使用本課程提供之工具或網際網路上之工具完成目標。原則上請儘量尋找鄰近序列,跳的越遠越好;若你想練習基因註解,亦可請助教在找到之序列上代做分析,然後自己練習做註解。最後請將結果錄製或繪製為圖形以Netscape製作網頁,呈現結果。

內容說明

在未來資料庫中將有許多用霰彈槍 (shot gun) 法產生的DNA序列。若能有系統地收集和某種病徵相關的序列,並將這些序列組合起來,鑑定出這區域中的基因,有助於決定它們是否與疾病相關。

要達到上述目標,不但要能找到和病徵相關的序列,而且還要有足夠的數目,同時,也要決定這序列片段之順序。在GDB中收錄了人類基因體所有的圖譜資訊,以和肝癌形成有關的區域染色體為例,LOH (loss of heterozygosity) CGH (comparative genome hybridijat) 的實驗均顯示第四號染色體上,由4q124q234q26 - 4q27的區域在肝癌細胞與正常細胞不同。我們可以由GDB中找出落在此區域中的標幟,其中以STS標幟最好用。可是STS標幟 (marker) 的平均密度是每0.5MB一個而新產生序列的平均長度遠小於STS間的平均長度,因此如何收集那些落在STS標幟間的序列,成為決定成敗的關鍵因子。

此時真核生物中基因不連續的概念就提供了解決方案。以一假設的基因為例,不同的外子(exon)可能落在不同的DNA片段上。如下圖所示,

DNA片段A含有落在4q124q234q26 - 4q27中的STS標幟,因此在以STS序列對nrHTGS資料庫做blast分析時,會找到片段A,可是片段B則不可能用這種方法找到。可是在找到片段A後,若能在其上找到基因X,則這個基因的其他外子,有可能落在其他的DNA片段上。若基因XcDNA已知 ,即可用它做blast分析,到nrHTGS資料庫中收集相鄰的序列片段。

假如在片段A上只能找到EST,而找不到cDNA,似乎就失去了尋找相鄰DNA片段的機會。因為在nrdbEST資料庫中,並未記載EST間的關係。不過美國NCBIUniGene資料庫卻企圖建立屬於同一個transcript的所有EST的資料庫。換言之,屬於同一個UniGene clusterEST,很可能可以組合成一個transcript。所以只要找出片段A上之EST屬於哪一個UniGene cluster,即可用那一個cluster中的其他EST做查詢序列,到nrHTGS資料庫中收集片段A附近的其他基因體序列。

為了直接找到落在片段A中的EST是屬於哪一個UniGene cluster,劉玉凡發展出一工具能讓我們以blastn搜尋UniGene資料庫。這一序列程式的輸出檔,會直接顯示在片段A中屬於不同UniGene clusterEST的範圍,與每個EST的辨識碼。此時使用者必須自行查閱UniGene 資料庫,判斷哪一個UniGene cluster可能是一個基因的一部份。然後再以這個UniGene cluster中的其他EST去搜尋nrhtgs

同一個UniGene cluster中可能有許多EST,除非其中有一個全長的cDNA,否則若要一一送去做Blastn分析太麻煩。此時可用Tagmnet先做序列組合,或在TIGR網站上找出相對應的THC (tentative human consonsns),再以此組合好的序列去查詢nrhtgs資料庫,找到可能與片段A有關的其他序列,例如片段B

策略總整理

* 如果可以找到片段B,可重複運用此策略尋找其他的序列片段。若找不到,則可用各種分析工具分析組合出之EST片段。如果組合不出EST片段,則應討論為何做不下去,並試著瞭解這個方法的最前端,也就是如何應用GDB , dbSTS , dbGSS , UniGene , Genome Channel來幫助我們找到適當的標幟來搜尋nrhtgs資料庫。此時可用染色體上4q124q23的一段做例子說明。