查詢序列 |
被查詢的目標 |
GCG |
SeqWeb |
EMBOSS | Internet |
字串 |
核酸或蛋白質資料庫 |
StringSearch 或 LookUp | SeqRet 或 Pattern Matching |
以利用 StringSearch 尋找和 TFIIIA 有關係的序列為例,TFIIIA 或 TF3A 都無法在 PIR 資料庫的「Definition」中找到相關的序列,或許應搜尋「所有的序列說明」。可是使用者很難確定 TFIIIA 或 TF3A 這兩個關鍵字到底夠不夠,例如是不是該加上「factor IIIA」? 另一個策略是直接利用序列的相似性來找和 TFIIIA 有關的序列。這種方法應可確保找到所有相關的序列。
因此在範例 0-8中,以 Xenopus 的 TFIIIA 蛋白質序列為比較的標準,到 PIR 資料庫中去尋找相關的序列。由上圖中可看出 PIR 中並不是沒有和 TFIIIA 相關的序列,只是用字串搜尋的「Definition」是不夠的。如果用字串搜尋「Complete sequence annotation」,則可找到 TFIIIA 相關的蛋白質序列(參閱圖 0-3)。用字串搜尋的缺點是可能找到一些不相關的序列,像是人類的「BTF3A」基因只因為檔名中有「TF3A」,就會被找到。
回到"搜尋資料庫的策略"
Last updated on 11/25/01