綜合評論: 序列資訊查尋

序列資訊的搜尋與取得

各資料庫其實都提供了一些搜尋序列資料庫的工具。其中最有名的莫過於美國 NCBIEntrez系統與歐洲 EBI SRS系統。日本 GenomeNet 下的 dbGet 也是一個理想甚高的工具,不過有趣的是 dbGet 可查詢 GenBankEMBL,卻不提供 DDBJ 的查詢為測試這幾個系統的搜尋能力,以tfiiia為關鍵字來搜尋上述系統及 DDBJ 所提供的 WAIS 搜尋。其中EntrezSRS分別找到 3129 筆資料,遠高於 dbGet DDBJ 所找到的 15 筆與 6 筆資料。就搜尋序列資料的角度看,當然希望先找到所有相關的資料後,再剔除不想要的,而不希望在第一步就遺漏了相關的資訊,因此在求完備的前提下,美國的 Entrez 系統可能是該優先考慮的。可是完備性並不是一個評估系統好壞的唯一因子,因為找到的資料若分散在各處,就需要一些整合的搜尋系統來幫助我們找到所有需要的資訊。此時歐洲的 SRS 就略勝一籌,因為它可以同時指定序列、模組、轉錄因子、‥‥等十類不同的資料庫中可以一起搜尋的資料庫,而每一類下之各資料庫又可複選,然後一起搜尋。這種搜尋方式,與美國的Entrez或日本的dbget在找到一個物件,(例如序列、文獻等)後,再由連接的方式尋找相關資訊是不同的。因為一個物件不可能連接到所有的資料庫,有時必須用間接的方式才能跳到想看的資料庫上。以 tfiiia 為例,若在搜尋 SRS 時同時選取核酸與蛋白質序列,再加上轉錄因子資料庫,即可同時列出相關的資料,因此比使用 Entrez dbget 有效率。

華而不實不如治學嚴謹

事實上沒有一個搜尋工具是完美的。因為當資料量大時,就必須採用自動化的方法來做,而不能用人工核對。若為確保品質,而用人工來做,就無法處理非常多的數據。Entrez 只企圖建立序列、結構、文獻間的關係,若想找更多的關係,就必須訴諸日本的 GenomeNet。可是這種自動化的系統並不保證一定能找到預期的關係。例如以tfiiia為關鍵字搜尋 GenBank 時,若追蹤檢索碼為k02938的轉錄因子 TFIIIA基因,理論上應能找到 TFIIIA 基因所辨認的 DNA 序列,可是實際上連不過去。這並不是因為資料庫中沒有記載這樣的關係,而是自動化的方法遺漏了這一個關係,在這樣的情形下,用 EBISRS 系統才能一次找到所有想找的資訊。事實上對 k02938 這個個案而言,GenomoNet 還有許多其他的問題,例如由此核酸序列可連接到 Swiss-Prot 中的 P03001 蛋白質序列。在此蛋白質檔案中,除了 ProSits (PS00028) PDB (ITF3)的參照外,還列著三個 PIR(A03529A24961S40785) 的參照,不過當你按這三個超連結時,或是你利用這三個辨識碼去搜尋 DBGET 中的 PIR 資料庫,也都找不到序列,一定要用TWXL3 (A03529)這一個名字才會找到檔案。在 Entrez 也有同樣的問題。可是 SRS,或 GCG 軟體套組中,都可用任何一個名字或代碼找到相同的一筆資料。像 dbgetentrez 這種利用連結搜尋資訊的程式,在搜尋資料庫時,都必須選用適當的關鍵字,否則無法得到想要的結果。由這個例子中可看出,雖然 dbget 有很大的雄心,希望在資料庫間建立很好的連結,可是反而不如 Entrez 集中力量在幾個關鍵資訊上,或是 SRS 由搜尋資料庫,而不是由連結的角度來解決同樣的問題。

Last updated on 11/26/01