搜尋資料庫有三種策略,最容易了解的是「字串搜尋(string search)」。在圖書館中常用的「Medline」系統就是利用這種方式及像「醫學主題(MEdical Subject Headings,MESH)」這樣的控制語彙(control word) 來做檢索。使用控制語彙,使我們不必在意作者使用單複數名詞、形容詞或同義字。可是序列資料庫的管理者沒有那麼多人力去編寫控制語彙,所以採用其他的運算法,以便於辨識模組樣式(pattern) 或是相似(similar) 的序列。像 FindPatterns 這樣的程式,可以讓使用者輸入比較含糊的描述方式,例如 EcoRII 酵素的辨識序列「CCAGG」與「CCTGG」兩種序列可表顯示成「CCWGG」。
可是有些時候使用者寫不出那麼明確的模組樣式,只能給一些條件來規定什麼叫做相像。
String search :「字串」是由一連串明確的字元的序列片段,例如
Pattern search :「模組樣式」是一個含有不明確字元的序列片段,例如
Similarity search : 根據運算法(algorithms),尋找相似的序列,也就是尋找符合下列條件的所有序列:
*若你的目的是要收集資料庫中「所有」和給定序列相關的序列,做親緣分析等工作「字串搜尋」是不夠的,因為你不知道資料庫中是使用哪些關鍵字來描述序列的,所以難免會漏掉一些序列。可是「相似性搜尋」則可找出所有相似的序列,再由你選擇你要用哪一種相似性之上的序列做分析。因此 FastA, TFastA, Blast 等資料庫搜尋程式,也可用來「收集序列」。
回到「搜尋資料庫」
Last updated on 11/23/01